StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案,支持Linux和Windows系统,能够满足多种应用需求。
XTTS 是一个开源文本到语音(TTS)项目,旨在提供高质量的语音合成,支持多种语言,适用于不同的应用场景,如语音助手和有声书制作。
Unreal Speech是一个创新的人工智能工具,旨在将文本转换为自然流畅的语音,适用于播客、视频和实时应用等多种内容生成。它具有高性价比、高质量音频输出和灵活的API,满足不同用户的需求。
WhisperSpeech 是一个强大且易于定制的文本转语音工具,基于 Whisper 的语音转文本技术,能够提供高质量的语音合成,并支持多种语言和口音。该项目是开源的,允许用户自由使用和修改,同时也适用于商业项目。
ChatTTS-Forge是一个基于ChatTTS模型的文本到语音生成项目,具备API服务器和基于Gradio的WebUI,能够提供全面的API服务以及支持超长文本的生成能力,用户可选择多种语音风格并管理说话人。
Play.ht是一个AI语音生成平台,利用先进技术将文本转换为逼真的人声,支持142种语言和口音,拥有超过600种AI声音,为创建引人入胜和专业的语音内容提供了广泛的功能和应用场景。
Fish Speech是一个开源项目,通过仅需15秒的任意声音,可以可靠地合成自然流畅的语音,同时保持给定的音色、风格和口音。该项目由So-VITS-SVC和Bert-VITS2的创作者团队推出。
ChatTTS-OpenVoice是一个个性化语音合成助手,通过上传10秒音频剪辑,融合了ChatTTS与OpenVoice技术,能够克隆用户的个性化语音,快速生成高质量的语音输出,提供易于使用的接口,满足用户的不同需求。
bark.cpp是Suno AI的Bark项目在C/C++中的移植,旨在实现快速的语音合成推理。它支持多种声音模型,具有可扩展的架构,并经优化以适应实时应用场景。
Zeniteq是一个致力于生成性人工智能不断演变的新闻杂志,旨在提供有关各种AI领域的最新新闻和更新,包括对话式AI、图像和视频生成器以及音频合成技术的报道。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型