AI音频工具 | 第 28 页

Genshin Datasets For SVC/SVS/TTS开源项目 – 面向语音合成与转换的《原神》数据集

该数据集为SVC/SVS/TTS任务提供高质量的《原神》角色语音数据，支持多种语音风格和角色，包含详细的音频标注和文本转录，适合语音合成、转换及相关研究。

0

Genshin语音数据集个性化语音助手语音合成语音转换

Useful Transformers开源项目 – 高效的Transformer推理库

这是一个专为边缘设备设计的Transformer模型推理库，旨在实现低成本、低能耗的处理。它能够以30倍的实时速度运行tiny.en Whisper模型进行语音转录，相较于最知名的实现速度快2倍，非常适合在资源受限的环境中使用。

0

Transformer模型低能耗处理语音转录边缘设备推理库

LivePortrait官网 – 一键让图片唱歌说话

一个一键整合包，上传一段视频即可让图片唱歌说话，甚至可以驱动动物表情！

0

动物表情驱动图片唱歌工具视频上传工具

Whisper Turbo开源项目 – 跨平台GPU加速的语音识别工具

Whisper Turbo是一个跨平台的GPU加速版Whisper，能够在客户端浏览器或Electron应用里运行，提供高效的语音识别功能，便于开发者集成，支持多种音频格式的识别和实时语音处理。

0

Electron应用集成GPU加速语音识别实时语音处理浏览器语音转文本

ebook2audiobookXTTS开源项目 – 电子书转有声书工具

ebook2audiobookXTTS是一款功能强大的电子书转有声书工具，能够自动分章节并保留电子书的元数据，支持多种语言的转换和声音克隆功能，为用户提供灵活便捷的有声书制作体验。

0

声音克隆功能多语言支持电子书转有声书工具自动分章节

openai-realtime-streamlit开源项目 – 智能对话助手，实现实时交互

将OpenAI的实时对话控制台移植到Streamlit，提供更直观的交互体验，支持音频流的发送和播放，旨在提升用户的对话体验和互动性。

0

OpenAI集成Streamlit应用实时对话助手音频流交互

Wenet STT Python开源项目 – 基于WeNet的Python语音识别库

Wenet STT Python是一个基于WeNet的语音识别库，旨在提供高效、准确的语音转文本功能。它支持多种语言，能够实时处理语音输入，并允许用户自定义模型以满足特定需求，易于与现有Python项目集成。

0

Python语音转文本实时语音识别自定义模型语音识别库

WhisperPlus开源项目 – 提升语音转文本处理

WhisperPlus 是一款先进的语音转文本处理工具，致力于提供高准确率的语音识别，支持多种语言，并具备实时转录功能。它能够处理不同音质的音频，并提供用户友好的API接口，方便开发者进行集成和使用。

0

API接口多语言支持实时语音转录自定义模型训练

ChatTTSPlus开源项目 – 聊天文本转语音工具

聊天文本转语音工具，让语音合成更快速、支持声音克隆和移动部署，提升语音交互体验

0

声音克隆移动部署聊天文本转语音工具语音交互体验

GLM-4-Voice开源项目 – 智能语音对话系统

智谱AI语音对话模型：一款能直接理解和生成中英文语音的智能对话系统，支持实时对话并根据指令改变语音属性，让机器交流更自然

0

中英文语音理解与生成实时对话教育培训语音互动智能语音对话系统

RIFT-SVC开源项目 – 歌声转换模型，个性化音乐创作

RIFT-SVC是一款基于Rectified Flow Transformer的歌声转换模型，能够将一个歌手的歌声转换成另一个歌手的风格，让音乐创作和演绎更加多样化和个性化。该模型采用先进的技术，确保高质量的转换效果，并支持多种歌手风格的实现，便于用户集成和使用。

0

个性化音乐创作歌声转换模型音乐风格转换高质量音频转换

Insanely Fast Whisper (CLI)开源项目 – 超快音频转文字命令行工具

基于Whisper语音识别模型的超快音频转文字命令行工具，用Whisper Large v2在10分钟内转录300分钟音频。该工具优化了转录速度，支持多种音频格式，并具有高准确率的语音识别，适合批量处理大型音频文件。

0

Whisper语音识别命令行工具批量音频处理超快音频转文字工具

Realtime Voice Clone Chinese开源项目 – 基于深度学习的快速中文语音克隆

一个基于深度学习的中文语音合成项目，通过采集分析一段具体的声音样本，可在 5 秒内生成与之类似的克隆语音。

0

中文语音克隆快速语音生成深度学习语音合成语音助手应用

Qwen2-Audio开源项目 – 大型音频语言模型，支持音频分析与文本回复

阿里巴巴云计算推出的大型音频语言模型，能够接受各种音频信号输入，并根据语音指令进行音频分析或直接生成文本回复，为对话系统和音频处理任务提供强大支持。

0

大型音频语言模型客服系统文本回复语音交互学习工具

ChatMusician-文本创作音乐的创新项目

来自香港科技大学的音乐创作项目，能够只通过文本的方式理解和创作音乐，无需依赖于任何专门的多模式处理或复杂的编码系统。

0

AI音乐应用开发文本生成音乐音乐创作AI音乐教育辅助工具

transformers.js-examples开源项目 – 浏览器内推理的 AI 示例项目

该项目展示了如何使用Transformers.js在浏览器中进行AI推理，特别是图像背景去除和语音识别，支持WebGPU加速，保证数据隐私，适合需要实时处理的应用。

0

AI图像处理WebGPU加速数据隐私浏览器内推理

NotebookLlama开源项目 – PDF转播客工作流

NotebookLlama 是 Meta 发布的开源项目，专注于将 PDF 文档转换为播客音频的工作流程。它提供了详细的教程和工具链，支持从 PDF 提取文本、改写为播客脚本、增强脚本表现力，并最终生成自然对话风格的播客音频。

0

AI语音合成PDF转播客开源项目播客制作工具

Luna AI开源项目 – 全自动 AI 直播系统

Luna AI 是一个全自动的 AI 直播系统，由多种 AI 模型驱动的虚拟主播，能够实时与观众互动并聊天。它支持多种直播平台，能够生成自然语言的回答并进行语音交流。

0

AI直播系统变声功能图像生成实时互动

Whisper开源项目 – 语音转文字的Windows应用

Whisper是一个基于whisper.cpp的Windows应用，旨在方便普通用户进行语音转文字转换，具有高效、无依赖的特点，能够满足日常使用需求。

0

Windows语音识别语音转文字应用高效语音转换工具

VITA开源项目 – 开源实时视觉语音交互模型

VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型，能够理解图片和视频内容，并用语音回答用户的问题。

0

实时语音识别开源实时视觉语音交互模型自然语言对话语音问答

Grad-SVC-基于Grad开源项目 – TTS的歌唱声音转换

Grad-SVC是一个基于Grad-TTS的歌唱声音转换项目，采用HUAWEI Noah's Ark Lab的技术，核心算法为扩散，旨在提供高质量的歌唱声音转换，支持多种风格和情感的声音转换，具有用户友好的界面和详细的文档支持。

0

Grad-TTS多风格声音转换歌唱声音转换用户友好界面

Huggingface Distil-Whisper开源项目 – 蒸馏版Whisper，快速高效的语音识别

Distil-Whisper是一个令人印象深刻的AI模型，相较于Whisper，它提供了更快的推理速度和更小的模型体积，速度提高了6倍，体积减少了49%，在分布外评估集上表现也具有竞争力。

0

实时语音转文本批量处理音频文件移动设备语音识别聊天机器人集成

bilibot开源项目 – B站聊天机器人，支持文字及语音对话

Bilibot是一个基于B站用户评论微调训练的本地聊天机器人，支持文字聊天和通过questions.txt生成针对特定问题的语音对话，旨在提供更加自然的互动体验。

0

B站聊天机器人开源项目微调训练自然语言处理

OpenVoiceChat开源项目 – 开源自然语音对话工具

与大型语言模型进行自然语音对话的开源工具，支持多种语音识别、语音合成和语言模型，提供易用且可扩展的API，目标成为闭源商业实现的开源替代方案

0

开源自然语音对话工具聊天机器人语音助手语音合成

EasyBertVits2-简化Bert开源项目 – VITS2模型使用的工具

EasyBertVits2是一个简化了Bert-VITS2模型使用的工具，可以从文章生成富有情感的语音，提供高质量的语音合成，便于开发者和用户使用。

0

Bert-VITS2模型情感语音生成文本到语音合成语音合成工具

MSST-WebUI开源项目 – 音源分离训练推理的Web界面

音源分离训练推理WebUI：一个集成了音源分离训练框架和UVR（终极人声消除器）的Web界面，让你能自定义处理流程，轻松安装模型并进行音乐源分离

0

UVR人声消除器模型安装与管理自定义音频处理音源分离训练Web界面

ProtoReplicant开源项目 – 浏览器中的AI 3D化身语音接口

ProtoReplicant是一个在浏览器中实现的AI 3D化身语音接口，集成了语音活动检测、语音转文本、大语言模型、文本转语音和虚拟角色模型等技术，旨在提供一种互动性强的用户体验。

0

AI 3D化身大语言模型文本转语音虚拟角色模型

AudioCraft开源项目 – 深度学习音频处理与生成库

AudioCraft是一个基于深度学习的音频处理与生成库，旨在提供先进的音频压缩、生成和实验功能。

0

可控音乐生成深度学习音频处理音频压缩工具音频生成库

Neural Concatenative Singing Voice Conversion开源项目 – 任意歌声转换模型

这是一个能够将一种歌声转换为另一种歌声的模型，支持任意源歌声到任意目标歌声的转换，基于神经网络实现高效的声线合成，并能处理多种音频格式，提供用户友好的接口和文档。

0

任意歌声转换模型实时音频转换神经网络声线合成自定义训练模型

Buzz开源项目 – 实时语音转文字工具

Buzz是一款基于OpenAI Whisper的开源、可离线的实时语音转文字工具，提供翻译和转录两个任务，可以将麦克风的语音实时转换为文字，也支持将视频、音频文件转换为文字、字幕，同时Buzz自带GUI界面，使用操作简单。

0

Whisper兼容工具实时语音转文字工具开源语音转录音频翻译工具