SwiftWhisper是基于Whisper.cpp二次封装后,让Swift方便调用的库,基于它可以方便的开发语音识别转文字类的Whisper应用。
Whisper for Large Audio 是一个简单的解决方案,旨在帮助用户处理大音频文件的转录问题。用户可以直接在浏览器中将任意大型音频文件分割,并利用 OpenAI 的 Whisper 对分割后的部分进行转录,只需一键即可获得完整的转录文本,消除了文件大小限制和手动操作的繁琐。
Vocalize是一个平台,用户可以使用数千种流行的AI声音轻松创建AI音乐翻唱和文本到语音功能。用户只需选择一个声音,上传音频或输入文本,Vocalize便可以完成其余工作。
Qwen2-Audio是一个大规模音频语言模型,支持语音聊天和音频分析,能够处理各种音频信号输入并生成文本回应。
Text2Audio是一个简单的在线文本转语音(TTS)工具,可以将文本生成MP3音频文件。用户可以直接在网页中播放或下载音频文件。只需输入或粘贴希望听的文本,Text2Audio就会为您朗读。
Whisper-V3 是最新的开放源代码语音识别模型,相较于 Whisper-V2 有了显著改进,能够将音频直接转换为文本,并支持多任务处理,适用于多种应用场景。