VoiceCraft 是一个基于令牌填充的神经编解码语言模型,在野生数据集上的语音编辑和零样本文本到语音(TTS)转换方面达到了最先进的性能。
Seed-TTS能生成与我们说话几乎没有区别的语音,非常逼真。支持英文、中文等。能够处理叙述性、情感表达、描述性等多种文本,能根据不同的情感和语境生成相应的语音!
Emotivoice是一个支持情感提示控制的中英双语语音合成TTS引擎,提供多达2000种语音选项,旨在通过情感分析与合成技术提升语音交互体验。
Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案,支持Linux和Windows系统,能够满足多种应用需求。
AI实时变声工具
本文介绍了一个名为DDSP-SVC 3.0的开源项目,它是一个可以替代低配SO-VITS-SVC的工具。使用该工具,可以用更低的显存和更短的时间训练出模型,生成AI音乐。尽管生成的音乐质量相对较低,但可以用于快速生成音乐。
OuteTTS是一个实验性的文本到语音模型,采用纯语言建模方法生成语音,致力于提升语音合成的自然性和可控性。
DevMind是一个集成各种AI能力的创意平台,支持聊天补全、图像生成、人脸交换、语音转换、吉祥物创建、魔法头像、二维码艺术、视觉AI、图像放大等功能,现阶段可免费使用。
聊天文本转语音工具,让语音合成更快速、支持声音克隆和移动部署,提升语音交互体验
Coqui是一个平台,利用生成AI技术提供真实且富有情感的文本转语音配音服务。用户可以通过提供3秒的音频来克隆声音,或从可用的AI声音中选择。通过AI情感和语音控制功能,用户可以调整声音的风格、节奏和情感。高级编辑器允许用户对每个句子、单词或角色的音调、音量等进行细致调整。用户还可以使用多个表演保存不同的表现,并通过时间线编辑器指导场景。Coqui Studio提供项目管理功能,帮助用户组织工作。
ttotalk 是一个免费的文本转语音工具,支持超过50种语言和声音风格。它使用强大的神经网络技术,使语音听起来更加自然。用户可以在线收听或下载音频文件,格式为mp3或wav。
Whisper Turbo是一个跨平台的GPU加速版Whisper,能够在客户端浏览器或Electron应用里运行,提供高效的语音识别功能,便于开发者集成,支持多种音频格式的识别和实时语音处理。
Llama3-S是一个扩展文本基础的大型语言模型,具备原生的‘听力’能力。通过早期融合模型训练,Llama3-S实现了声音识别与文本理解的有效结合,适用于多种语言处理任务。
sherpa-ncnn 是一个使用下一代 Kaldi 和 ncnn 构建的实时语音识别系统,支持多种语言和方言,具备低延迟性能,适合各种实时应用场景。它提供灵活的模型部署选项,并兼容 Kaldi 的最新技术,能够满足开发者的多样化需求。
Zeniteq是一个致力于生成性人工智能不断演变的新闻杂志,旨在提供有关各种AI领域的最新新闻和更新,包括对话式AI、图像和视频生成器以及音频合成技术的报道。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型