Grad-SVC是一个基于Grad-TTS的歌唱声音转换项目,采用HUAWEI Noah's Ark Lab的技术,核心算法为扩散,旨在提供高质量的歌唱声音转换,支持多种风格和情感的声音转换,具有用户友好的界面和详细的文档支持。
歌声音色转换模型,通过SoftVC内容编码器提取源音频语音特征,与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。
Instant Singer 是一款基于前沿AI技术的工具,可以将任何歌曲转变为听起来像你演唱的版本,同时保持原曲的音调和风格。用户可以在短短2分钟内体验到自己的歌唱潜力,演唱自己喜欢的曲目,并即时分享。
TangoFlux 是一款超快且忠实的文字转音频生成器,采用流匹配技术,能够快速将文本转换为高质量的音频。它具有惊人的效率和领先的性能,支持多种语言和音调,并提供易于集成的API,推动语音合成领域的发展。
音源分离训练推理WebUI:一个集成了音源分离训练框架和UVR(终极人声消除器)的Web界面,让你能自定义处理流程,轻松安装模型并进行音乐源分离
MetaVoice Studio是一个前沿平台,旨在彻底改变创作者的配音制作方式,结合超真实的人声,为项目注入丰富的情感和真实性。
基于 PyTorch 的音乐生成和文本到语音(TTS)系统的实现,该系统使用基于 LLaMA 的大型语言模型(LLMs),并支持在单个 RTX 4090 GPU 上少于 10 小时内训练音乐生成模型
MusicLM将条件音乐生成过程视为分层序列到序列建模任务,并生成24kHz的音乐,能够在几分钟内保持一致。他们的实验表明,MusicLM比以前的系统在音频质量和对文本描述的坚持方面表现更优。此外,我们证明MusicLM可以在文本和旋律上进行调节,即它可以根据文本说明将吹口哨和哼唱的旋律转换为描述的风格。为了支持未来的研究,我们公开发布MusicCaps数据集,该数据集由5.5k音乐文本对组成,并提供了人工专家编写的丰富文本描述。
Kits AI是一个为音乐创作者提供的AI声音生成和免费训练平台,用户可以使用我们的授权音库或免版税声音库中的AI艺术家声音来改变自己的声音,或者通过一键RVC v2模型训练从零开始创建、训练并分享自己的AI声音。同时也支持上传现有的.pth文件到RVC v1或v2模型进行高质量推理与模型共享。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型