GPT-SoVITS 是一个适用于中文的语音克隆项目,能够通过短时间的语音数据训练出高质量的文本到语音(TTS)模型。仅需1分钟的语音数据即可进行有效的模型微调,支持多语言推理,并提供易于使用的Web界面,适合初学者创建和管理训练数据集。
XTTS是一个强大的声音克隆项目,用户只需提供几秒钟的音频样本,即可创造出高质量的AI语音克隆。该项目具备出色的零样本克隆能力,并且支持多种语言,能够生成更加自然的语调和表达力。
Kokoro 82M 是一个高质量的 TTS 模型,能够生成极高音频质量的语音,同时模型大小不到 300M,便于部署和使用。该模型在 T4 上能够快速生成语音,并支持通过架构训练其他语言,且只需不到 100 小时的音频数据进行训练。
Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型,支持多种语言,并提供即时语音克隆,具备超低延迟,约1GB的模型重量,模型权重可在Hub上获取。
ElevenLabs 是一款提供最具吸引力、丰富和逼真的语音的文本转语音和语音克隆软件,旨在为创作者和出版商提供讲故事的终极工具。
QuickVideo是一个基于AI的视频生成工具,允许用户从单张图片创建虚拟头像,并在其视频中使用。通过声音克隆,这些头像可以被编程以任何选择的声音重复或叙述对话。
Speaking AI是一个生成语音的基础模型测试版,用户可以通过仅需3秒的输入捕捉到自己独特的音调,实现自然的声音质量。
Rapport AI是一个创新的自助平台,旨在利用AI生成动画,创建、动画化和部署能够进行有意义对话的情感智能角色。该平台提供实时动画,最大化共情、参与度和投资回报率,支持多种语言和与各种平台的无缝集成。
WhisperBot是一个基于AI的WhatsApp助手,将语音消息转换为文本转录。它利用OpenAI的技术,提供超过57种语言的快速准确转录,帮助用户在无法收听音频的情况下轻松阅读语音消息,节省时间。
在本地计算机上微调 LLAMA-v2(或任何其他 LLM)的最简单方法,提供用户友好的界面和高效的训练过程,支持多种语言模型,方便用户上传数据并进行微调。
DraftMate 是一款人工智能驱动的工具,帮助用户轻松撰写各种文本,并且能够方便地分享、保存和搜索草稿。它提供了一系列尖端功能,以提升写作体验,并提供全天候客户支持。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型