ChatTTS-Forge是一个基于ChatTTS模型的文本到语音生成项目,具备API服务器和基于Gradio的WebUI,能够提供全面的API服务以及支持超长文本的生成能力,用户可选择多种语音风格并管理说话人。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
语音克隆项目通过提取人类的音色,将文本或其他语音转换为特定的音色,提供个性化的语音合成解决方案。该项目支持从文本生成语音以及将已有的语音样本转化为克隆音色,适用于多种应用场景。
Talk是一个基于whisper.cpp和llama.cpp的项目,旨在实现与计算机的直接语音对话。它整合了先进的语音识别和生成技术,支持自然语言处理,能够实时响应用户的语音指令,并提供用户友好的界面,方便易用。
ElevenLabs是一个提供高质量AI语音生成服务的平台,用户可以免费创建高级AI语音,并在几分钟内生成文本到语音的配音。
Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型,支持多种语言,并提供即时语音克隆,具备超低延迟,约1GB的模型重量,模型权重可在Hub上获取。
基于 PyTorch 的音乐生成和文本到语音(TTS)系统的实现,该系统使用基于 LLaMA 的大型语言模型(LLMs),并支持在单个 RTX 4090 GPU 上少于 10 小时内训练音乐生成模型
Vocalize是一个平台,用户可以使用数千种流行的AI声音轻松创建AI音乐翻唱和文本到语音功能。用户只需选择一个声音,上传音频或输入文本,Vocalize便可以完成其余工作。