AI音频工具 | 第 25 页

CoVoMix开源项目 – 人类般多说话者对话的零样本语音生成

CoVoMix项目旨在推进人类般的多说话者对话的零样本语音生成技术，能够创建流畅的对话体验，支持多位说话者之间的自然交流。

0

多说话者对话虚拟环境对话代理零样本语音生成

HeyGen官网 – 视频翻译与口型对齐解决方案

HeyGen的视频翻译（中文配音）解决方案，通过上传视频实现口型完美对齐的配音翻译。

0

口型对齐声音克隆多语言视频内容视频翻译

Sketch2Sound官网 – 可控音频生成的声音合成模型

Sketch2Sound 是一种生成音频模型，通过时变信号和声音模仿实现音频生成，能够从一组可解释的时变控制信号创建高质量的声音。

0

可控音频生成声音合成模型声音艺术创作文本提示声音合成

EchoMimicV2开源项目 – 音频驱动的半身人物动画生成模型

EchoMimicV2是一个开源的人体动画生成模型，支持通过音频输入生成逼真的半身人物动画，具有引人注目的动作表现力和协调一致的表情与肢体动作，简化了生成流程，适用于多种创作场景。

0

动作表现力半身人物动画游戏角色动画表情与肢体动作同步

gen-cv开源项目 – 文本转语音头像项目

微软的文本转语音头像项目，允许用户通过文本输入创建会说话的头像视频，构建实时交互式机器人。

0

TTS音频合成头像视频生成实时交互式机器人文本转语音

设计资源合集开源项目 – 一个专注于聊天和文本转语音资源的项目

ChatTTS资源大全专注于提供多样化的聊天和文本转语音资源，支持多种语言和灵活的API接口，适合开发各种语音相关应用。

0

文本转语音资源聊天机器人开发语音支持应用

Qwen2-Audio-7B-Instruct官网 – 高效的AI音频处理模型

一个基于AI的音频处理模型，旨在提供高效的音频指令和处理能力。

0

AI音频处理模型实时音频处理用户友好的API音频指令生成

Local AI Voice Chat开源项目 – 本地AI语音对话助手

基于Zephyr 7B模型使用自定义语音进行本地AI对话，使用RealtimeSTT和faster_whisper进行转录，使用RealtimeTTS和Coqui XTTS进行语音合成，提供了一个实时的聊天机器人，可以进行语音交互。

0

Coqui XTTSRealtimeSTTRealtimeTTSZephyr 7B模型

mini_source_separation开源项目 – 简单易懂的音乐源分离工具

音乐源分离的小型项目，用简单易懂的方式帮助人们将音乐中的不同声音部分（如人声、乐器声等）分离出来，对于音乐制作和音频处理爱好者来说很有帮助。该项目基于Pytorch实现，使用MUSDB18HQ数据集进行训练和验证，支持音乐中的人声与乐器声分离，适合音频处理初学者，容易上手。

0

Pytorch音频处理音乐源分离工具音频分析与处理

fish-speech.rs开源项目 – Rust编写的文本到语音转换工具

用Rust编写的文本到语音转换工具，能将文本转换为多种语言的语音，特色在于使用了先进的CUDA技术来提升处理速度

0

CUDA加速语音处理Rust编写的语音合成文本到语音转换工具语言学习辅助工具

Voice-Pro开源项目 – 多功能音频处理工具

基于 Gradio 的 WebUI，支持 Whisper、faster-Whisper、whisper-timestamped，具备 YouTube 下载器、声音分离器、转录、文本到语音（TTS）和翻译功能

0

WhisperYouTube下载器声音分离多功能音频处理工具

Podcastfy开源项目 – 开源播客音频转换工具

Podcastfy 是一个开源工具，可以将视频、PDF、论文、网站和文章等内容一键转换为对话式的播客音频，为用户提供便捷的音频制作体验。

0

一键转换播客音频在线体验开源播客音频转换工具支持多种输入格式

Audiblez开源项目 – 电子书转有声书的工具

Audiblez是一个将电子书转换为有声书的工具，能够让用户在开车、健身等场景中轻松“阅读”，享受知识的乐趣，解放双眼。

0

命令行转换工具电子书转有声书工具高质量语音合成

Buzz官网 – 实时多语言语音转文字应用

Buzz是一个可以实时转文字的多语言语音转文字应用，支持处理语音和视频文件，适用于各种场景。

0

会议记录多语言语音转文字字幕生成实时语音转文字应用

Offmute开源项目 – 智能会议记录与分析工具

Offmute 是一款智能会议记录与分析工具，能够将音视频内容转换为文本，同时识别不同发言人，生成结构化会议报告，帮助用户更高效地管理会议内容。

0

会议内容分析智能会议记录工具结构化会议报告音视频转文本

Voice-Lab开源项目 – 全面的语音智能体测试框架

一个全面的语音智能体测试和评估框架，帮助开发者优化LLM驱动的语音助手。它支持多种语言模型和提示词的对比测试，允许自定义评估指标，能够实现模型迁移和成本优化，同时系统地测试不同场景下的代理表现，非常适合语音助手的开发和迭代优化。

0

LLM驱动的语音助手优化自定义评估指标语言模型对比测试语音智能体测试框架

M-AILABS Speech Dataset开源项目 – 免费语音数据集，助力AI应用

M-AILABS语音数据集：免费提供用于语音识别和语音合成的大型语音数据集，旨在帮助企业和开发者更好地利用人工智能和机器学习技术。

0

AI应用支持免费语音数据集语音合成训练数据语音识别训练数据

ComfyUI-MMAudio开源项目 – 音频处理工具，简化音频模型使用

一款将MMAudio集成到ComfyUI的音频处理工具，旨在简化音频模型的加载和使用，提高音频编辑的便捷性和效率

0

ComfyUI集成MMAudio音频模型音频处理工具音频编辑功能

WhisperX开源项目 – 用于识别字幕的工具

WhisperX 是一个高效的语音识别工具，专门用于生成精确的字幕，支持多种音频格式，适合处理直播或录制的视频内容。

0

字幕生成工具实时字幕识别语音识别工具

Action2Sound官网 – 为视频生成环境音效的AI模型

为了解决AI生成的视频缺少音效的问题，Action2Sound提供了一种环境感知动作声音生成的模型，能够根据视频内容生成相应的音效，极大提升了视频的表现力和观看体验。

0

AI生成视频音效动作声音生成环境音效生成虚拟现实音效

ChatMusician开源项目 – 生成音乐的开源大型语言模型

通过LLM本质上理解和生成音乐的开源大型语言模型，能够生成结构良好的完整音乐，超越GPT-4基线。

0

生成音乐的开源大型语言模型音乐创作工具音乐压缩器音乐理解与分析

Gemini多模态试炼场开源项目 – 构建实时语音与视频代理的工具

Gemini多模态试炼场是一个用于构建实时语音和视频代理的 Python 应用，借助 Google 的新 Gemini 2.0 模型，支持实时语音和视频输入以及音频回应。该应用程序提供两种版本：完整的全栈 web 应用程序和独立的 Python 脚本，方便用户根据需求选择。

0

Google Gemini 2.0Python 应用多模态应用实时视频代理

Gemini 1.5 Pro官网 – 高效的多模态混合专家模型

一种计算效率高的多模态混合专家模型，能够从包括多个长文档和数小时的视频和音频在内的数百万个Tokens上下文进行推理。

0

多模态混合专家模型模型性能评估稀有语言翻译视频内容分析

audio-foundation-model-dataset开源项目 – 构建音频模型的数据集

整理和提供用于构建通用语音、音频和音乐基础模型的数据集列表，以及相关的元数据和获取途径。该项目旨在帮助研究人员和开发者快速找到所需的音频数据集，以便进行模型训练和分析。

0

音频分析工具音频数据集音频模型构建

Whispo开源项目 – AI驱动的语音听写工具

Whispo是一款AI驱动的语音听写工具，能够让用户按住Ctrl键录音并自动转写文本。它兼容任何文本输入应用，确保数据仅存储在本地以保障用户隐私。此外，Whispo还支持使用自定义API和后处理语言模型进行转写，提供灵活的使用体验。

0

AI驱动的语音听写工具后处理语言模型用户隐私保障自动转写文本

NotebookLM开源项目 – 自然对话与音频生成工具

NotebookLM是一款结合了Deepseek-V3语言理解和PlayHT文本转语音功能的开源工具，能生成自然流畅的对话并将其转换为逼真的音频，适用于教育和娱乐领域。

0

互动式学习工具教育应用文本转语音聊天机器人开发

ArXiv Paper Reader开源项目 – 简化arXiv论文阅读的工具

ArXiv Paper Reader旨在简化和流利地阅读arXiv论文，使用LaTeX代码转换为HTML页面，然后提取文本和公式，将其转换为视频，同时创建与PDF文档相匹配的图形，并将文本分段以转换为音频。这一工具使得研究者和学生能够更高效地获取和理解论文内容。

0

arXiv论文阅读工具LaTeX转HTML文本音频转换研究者工具

MM-LLM-多模态大型语言模型的最新进展

MM-LLM是一个增强现有大型语言模型的框架，支持多模态输入和输出，同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计，并回顾了在主流基准上的表现，旨在推动多模态任务的发展。

0

多模态任务多模态大型语言模型推理与决策模型架构

Eliza开源项目 – 为Twitter和Discord设计的对话Agent

Eliza是一个为Twitter和Discord平台设计的对话Agent，能够模拟多个角色进行实时交流。它支持语音频道，并具备阅读链接、PDF文件的能力，能够转录音频和视频内容，同时总结对话要点。此外，Eliza还允许用户扩展自定义动作和客户端，提供更加个性化的使用体验。

0

DiscordPDF处理Twitter多角色模拟

RealtimeSTT_LLM_TTS开源项目 – 智谱AI驱动的实时语音处理工具

RealtimeSTT_LLM_TTS是一个结合流式大型语言模型和GPT-SOVITS的工具，支持实时语音转文字和语音合成，能够通过网页实现跨网络服务调用，方便用户在不同场景中进行高效的语音交互。

0

AI驱动的语音处理工具实时语音转文字语音合成跨网络服务调用