Neural Speech Synthesis是由Xu Tan和Hung-yi Lee在2022年Interspeech教程中介绍的一种先进的语音合成技术,利用深度学习算法生成自然流畅的语音,支持多种风格和情感,适用于多种应用场景。
edge-tts是一个工具,能够将任何epub书籍转换为有声书,使用微软的Edge TTS引擎生成语音,支持多种语言和语音选项,用户可以自定义语速和音调,提供简单易用的命令行界面,帮助用户节省在Audible上的开支。
IBM Watson文字转语音
bark.cpp是Suno AI的Bark项目在C/C++中的移植,旨在实现快速的语音合成推理。它支持多种声音模型,具有可扩展的架构,并经优化以适应实时应用场景。
kokoroTTS是一个文字生成语音模型,现已推出WASM版本,可以直接在浏览器中运行,支持高质量的语音生成,适配多种硬件,快速生成语音,方便用户在各种场景下使用。
AudioBot是一个在线AI驱动的文本转语音生成器,能够将文本转换为自然声音。它支持多种语言和口音,特别是在西班牙语及其14个国家的本地口音方面具有专长。生成的音频可以以MP3格式下载。
WellSaid Labs是一个领先的AI语音平台,能够实时将文本转换为高质量的语音,广泛应用于企业培训、广告、教育等多个领域。
Xpeacho是一个基于AI的文本转语音(TTS)服务,能够即时将任何文本转换为100%自然的人声配音。它专为视频创作者设计,提供用户友好的界面,支持多种语言选项和语音效果。
Huggingface Diffusers的OneFlow移植版,比PyTorch版性能更高,支持多种扩散模型,易于集成与使用。
whisperfile是一个基于llamafile的语音识别服务器构建工具,支持多种操作系统和CPU架构,提供快速启动和音频转换功能,旨在简化语音识别服务器的搭建过程。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型