该数据集为SVC/SVS/TTS任务提供高质量的《原神》角色语音数据,支持多种语音风格和角色,包含详细的音频标注和文本转录,适合语音合成、转换及相关研究。
这是一个专为边缘设备设计的Transformer模型推理库,旨在实现低成本、低能耗的处理。它能够以30倍的实时速度运行tiny.en Whisper模型进行语音转录,相较于最知名的实现速度快2倍,非常适合在资源受限的环境中使用。
一个一键整合包,上传一段视频即可让图片唱歌说话,甚至可以驱动动物表情!
Whisper Turbo是一个跨平台的GPU加速版Whisper,能够在客户端浏览器或Electron应用里运行,提供高效的语音识别功能,便于开发者集成,支持多种音频格式的识别和实时语音处理。
ebook2audiobookXTTS是一款功能强大的电子书转有声书工具,能够自动分章节并保留电子书的元数据,支持多种语言的转换和声音克隆功能,为用户提供灵活便捷的有声书制作体验。
将OpenAI的实时对话控制台移植到Streamlit,提供更直观的交互体验,支持音频流的发送和播放,旨在提升用户的对话体验和互动性。
Wenet STT Python是一个基于WeNet的语音识别库,旨在提供高效、准确的语音转文本功能。它支持多种语言,能够实时处理语音输入,并允许用户自定义模型以满足特定需求,易于与现有Python项目集成。
WhisperPlus 是一款先进的语音转文本处理工具,致力于提供高准确率的语音识别,支持多种语言,并具备实时转录功能。它能够处理不同音质的音频,并提供用户友好的API接口,方便开发者进行集成和使用。
聊天文本转语音工具,让语音合成更快速、支持声音克隆和移动部署,提升语音交互体验
智谱AI语音对话模型:一款能直接理解和生成中英文语音的智能对话系统,支持实时对话并根据指令改变语音属性,让机器交流更自然
RIFT-SVC是一款基于Rectified Flow Transformer的歌声转换模型,能够将一个歌手的歌声转换成另一个歌手的风格,让音乐创作和演绎更加多样化和个性化。该模型采用先进的技术,确保高质量的转换效果,并支持多种歌手风格的实现,便于用户集成和使用。
基于Whisper语音识别模型的超快音频转文字命令行工具,用Whisper Large v2在10分钟内转录300分钟音频。该工具优化了转录速度,支持多种音频格式,并具有高准确率的语音识别,适合批量处理大型音频文件。
一个基于深度学习的中文语音合成项目,通过采集分析一段具体的声音样本,可在 5 秒内生成与之类似的克隆语音。
阿里巴巴云计算推出的大型音频语言模型,能够接受各种音频信号输入,并根据语音指令进行音频分析或直接生成文本回复,为对话系统和音频处理任务提供强大支持。
来自香港科技大学的音乐创作项目,能够只通过文本的方式理解和创作音乐,无需依赖于任何专门的多模式处理或复杂的编码系统。
该项目展示了如何使用Transformers.js在浏览器中进行AI推理,特别是图像背景去除和语音识别,支持WebGPU加速,保证数据隐私,适合需要实时处理的应用。
NotebookLlama 是 Meta 发布的开源项目,专注于将 PDF 文档转换为播客音频的工作流程。它提供了详细的教程和工具链,支持从 PDF 提取文本、改写为播客脚本、增强脚本表现力,并最终生成自然对话风格的播客音频。
Luna AI 是一个全自动的 AI 直播系统,由多种 AI 模型驱动的虚拟主播,能够实时与观众互动并聊天。它支持多种直播平台,能够生成自然语言的回答并进行语音交流。
Whisper是一个基于whisper.cpp的Windows应用,旨在方便普通用户进行语音转文字转换,具有高效、无依赖的特点,能够满足日常使用需求。
VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。
Grad-SVC是一个基于Grad-TTS的歌唱声音转换项目,采用HUAWEI Noah's Ark Lab的技术,核心算法为扩散,旨在提供高质量的歌唱声音转换,支持多种风格和情感的声音转换,具有用户友好的界面和详细的文档支持。
Distil-Whisper是一个令人印象深刻的AI模型,相较于Whisper,它提供了更快的推理速度和更小的模型体积,速度提高了6倍,体积减少了49%,在分布外评估集上表现也具有竞争力。
Bilibot是一个基于B站用户评论微调训练的本地聊天机器人,支持文字聊天和通过questions.txt生成针对特定问题的语音对话,旨在提供更加自然的互动体验。
与大型语言模型进行自然语音对话的开源工具,支持多种语音识别、语音合成和语言模型,提供易用且可扩展的API,目标成为闭源商业实现的开源替代方案
EasyBertVits2是一个简化了Bert-VITS2模型使用的工具,可以从文章生成富有情感的语音,提供高质量的语音合成,便于开发者和用户使用。
音源分离训练推理WebUI:一个集成了音源分离训练框架和UVR(终极人声消除器)的Web界面,让你能自定义处理流程,轻松安装模型并进行音乐源分离
ProtoReplicant是一个在浏览器中实现的AI 3D化身语音接口,集成了语音活动检测、语音转文本、大语言模型、文本转语音和虚拟角色模型等技术,旨在提供一种互动性强的用户体验。
AudioCraft是一个基于深度学习的音频处理与生成库,旨在提供先进的音频压缩、生成和实验功能。
这是一个能够将一种歌声转换为另一种歌声的模型,支持任意源歌声到任意目标歌声的转换,基于神经网络实现高效的声线合成,并能处理多种音频格式,提供用户友好的接口和文档。
Buzz是一款基于OpenAI Whisper的开源、可离线的实时语音转文字工具,提供翻译和转录两个任务,可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕,同时Buzz自带GUI界面,使用操作简单。