Fish Speech是一个开源项目,通过仅需15秒的任意声音,可以可靠地合成自然流畅的语音,同时保持给定的音色、风格和口音。该项目由So-VITS-SVC和Bert-VITS2的创作者团队推出。
AI实时变声工具
Enginn Studio 是一个强大的语音合成工具,支持从原型制作到生产阶段的角色配音,能够在30种语言中以100倍的速度生成声音。用户可以浏览成千上万的声音选项,或使用VoiceMaker自定义自己的声音。
Revoicer是一款先进的AI文本转语音工具,能够生成富有情感的高质量配音,支持40多种语言,适用于各种数字媒体内容的制作。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
一个有趣的AI项目,可以通过短时间的音频源生成与原声音相似的音频,支持文本输入,基本可以做到以假乱真。
Vaanee AI是一个生成语音的AI工具包,可以在几秒钟内创建逼真的人类语音解说。用户只需在网站上注册账号,上传文本脚本或使用内置文本编辑器撰写内容,选择语音风格和语言,点击'生成'按钮,即可快速获得高质量的语音解说。
DupDub是一个全面的内容创作平台,帮助用户轻松生成吸引人的内容,支持多种语言和场景,适用于市场营销、播客和创意写作等。用户可以利用人类般的声音和动画头像生动呈现内容,同时享受专业级的视频编辑工具,无需高技术能力或大预算。
该项目允许用户通过上传短音频片段,快速创建任何名人的AI声音。用户只需输入要生成的文本即可获得所需的名人声音。
Speaking AI是一个生成语音的基础模型测试版,用户可以通过仅需3秒的输入捕捉到自己独特的音调,实现自然的声音质量。
Voice Changer 是一款实时语音转换客户端,支持Windows和Mac。它可以实时变声成其他人或者虚拟角色的音色,可以接入多种语音转换技术。
一种新型的文本到语音模型,通过文字描述生成高保真的语音,无需提前录制人声样本。
XTTS是一个强大的声音克隆项目,用户只需提供几秒钟的音频样本,即可创造出高质量的AI语音克隆。该项目具备出色的零样本克隆能力,并且支持多种语言,能够生成更加自然的语调和表达力。
Hamming AI 能够比手动拨打电话快100倍地测试你的AI语音代理。它允许用户创建类似Character.ai的人物和场景,同时可以同时进行数百个电话呼叫,以发现语音代理中的Bug,并提供详细的分析报告,帮助用户找出改进之处。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型