bark.cpp是Suno AI的Bark项目在C/C++中的移植,旨在实现快速的语音合成推理。它支持多种声音模型,具有可扩展的架构,并经优化以适应实时应用场景。
Bark是一个创新的文本转语音工具,能够生成接近真人的高质量声音,支持多种语言,并可添加情感音效和背景噪音,适用于各种应用场景。
Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型,支持多种语言,并提供即时语音克隆,具备超低延迟,约1GB的模型重量,模型权重可在Hub上获取。
TangoFlux 是一款超快且忠实的文字转音频生成器,采用流匹配技术,能够快速将文本转换为高质量的音频。它具有惊人的效率和领先的性能,支持多种语言和音调,并提供易于集成的API,推动语音合成领域的发展。
kokoroTTS是一个文字生成语音模型,现已推出WASM版本,可以直接在浏览器中运行,支持高质量的语音生成,适配多种硬件,快速生成语音,方便用户在各种场景下使用。
EasyBertVits2是一个简化了Bert-VITS2模型使用的工具,可以从文章生成富有情感的语音,提供高质量的语音合成,便于开发者和用户使用。
语音克隆项目通过提取人类的音色,将文本或其他语音转换为特定的音色,提供个性化的语音合成解决方案。该项目支持从文本生成语音以及将已有的语音样本转化为克隆音色,适用于多种应用场景。
Neural Speech Synthesis是由Xu Tan和Hung-yi Lee在2022年Interspeech教程中介绍的一种先进的语音合成技术,利用深度学习算法生成自然流畅的语音,支持多种风格和情感,适用于多种应用场景。
Unreal Speech是一个创新的人工智能工具,旨在将文本转换为自然流畅的语音,适用于播客、视频和实时应用等多种内容生成。它具有高性价比、高质量音频输出和灵活的API,满足不同用户的需求。
Parler-TTS 是一种开源的轻量级文本转语音 (TTS) 模型,可以生成具有给定说话者风格(性别、音调、说话风格等)的高质量、自然的语音。经过 45,000 小时公开演讲的训练,生成速度提高了 4 倍,支持多种语言的文本到语音转换。
FolkTalk是一个AI驱动的视频配音平台,旨在帮助视频创作者、品牌和组织以多种语言与受众沟通,扩大影响力。它利用先进的人工智能技术,提供高质量的配音结果,成本效益高且速度快。
一个开源项目,旨在为用户提供免费的GPT-4模型访问,允许用户绕过付费限制,方便使用强大的文本生成模型。
本文介绍了一个名为DDSP-SVC 3.0的开源项目,它是一个可以替代低配SO-VITS-SVC的工具。使用该工具,可以用更低的显存和更短的时间训练出模型,生成AI音乐。尽管生成的音乐质量相对较低,但可以用于快速生成音乐。
ChatTTS-OpenVoice是一个个性化语音合成助手,通过上传10秒音频剪辑,融合了ChatTTS与OpenVoice技术,能够克隆用户的个性化语音,快速生成高质量的语音输出,提供易于使用的接口,满足用户的不同需求。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
用Rust语言实现的超快文本转语音(TTS)引擎,只需一个命令就能合成高质量语音,支持多种语言,让语音合成变得简单快捷
Unsupervised-TTS是由Cheng-I Jeff Lai开发的无监督语音合成系统,旨在利用无监督学习算法提高语音合成的质量和效率,同时支持多种语言,便于与现有系统集成。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型