Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型,支持多种语言,并提供即时语音克隆,具备超低延迟,约1GB的模型重量,模型权重可在Hub上获取。
bark.cpp是Suno AI的Bark项目在C/C++中的移植,旨在实现快速的语音合成推理。它支持多种声音模型,具有可扩展的架构,并经优化以适应实时应用场景。
OpenVoice是一种多功能的语音克隆方法,只需要参考说话者的一个简短的音频片段即可复制他们的声音并生成多种语言的语音。
AI实时变声工具
GPT-SoVITS 是一个适用于中文的语音克隆项目,能够通过短时间的语音数据训练出高质量的文本到语音(TTS)模型。仅需1分钟的语音数据即可进行有效的模型微调,支持多语言推理,并提供易于使用的Web界面,适合初学者创建和管理训练数据集。
Crikk是一个革命性的文本转语音工具,利用AI生成逼真的语音配音。它提供6种自然音色,支持55种语言,并且还提供一些不太自然的免费语音。
AudiOverFlow 是一个AI语音生成器,能够将文本转换为语音,并提供下载音频的功能。它利用先进的AI算法将书面内容转化为自然流畅的声音。用户只需输入所需文本,选择语言和声音类型,AI算法会分析输入内容并生成高质量音频,用户可以在最终确定之前预览生成的声音并下载音频文件。
Typecast AI是一款在线AI语音生成器,能够将文本转换为真实感十足的语音,提供超过400种超现实的声音选择。用户可以为视频、演示、培训材料等创建定制化的生动音频内容。
该项目提供免费且高质量的AI文本转语音和语音生成服务,能够在几秒钟内将文本转换为真实的语音,适用于各种应用场景,提升用户体验。
open-tts-tracker是一个专注于收集和比较各类开源文本转语音(TTS)项目的平台,旨在为用户提供最新的TTS模型信息和性能比较,帮助用户选择合适的TTS工具。该项目支持多种语言的文本转语音,拥有用户友好的界面,并且持续更新项目列表,确保信息的时效性。
Speechson是一个在线文本到声音的TTS工具,利用深度学习算法将书面文本转换为自然声音,提供超过900种AI声音和144种语言的支持。
ChatTTS-Forge是一个基于ChatTTS模型的文本到语音生成项目,具备API服务器和基于Gradio的WebUI,能够提供全面的API服务以及支持超长文本的生成能力,用户可选择多种语音风格并管理说话人。
AnyToSpeech是一个在线文本转语音转换器,允许用户将文本、PDF、文档、扫描图像和网址转换为语音。它提供多种语言的真实声音,为从文本内容生成音频提供了简洁明了的解决方案。
一个让声音合成变得简单的接口项目,能帮用户轻松地将文字转换成各种语言和音色的语音,无论是常见的男女声还是特定语言的音色,都能轻松搞定,大大方便了需要语音合成的场景
Me4U 是一个平台,允许用户与他们喜爱的明星创作者进行真实的对话。该平台利用授权的 AI 克隆技术,使用户能够就自己感兴趣的话题与这些专业人士交流,提升用户的互动体验。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型