AI音频工具 | 第 24 页

阿里AI项目DreamTalk开源，可让人物头像说话，支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。

Text2Listen项目旨在让大语言模型能够理解人类语言，并做出合适的面部表情和动作，从而增强与用户的互动体验。该项目通过分析说话者的语音内容，生成对应的面部反应，并使用VQ-VAE技术对面部手势进行量化，确保生成的听众动作流畅且准确反映语言语义。此外，项目还将复杂的手势分解为简单的基础元素，从而提升聊天机器人的自然对话体验。

0

聊天机器人自然对话虚拟角色语言模型交互

Music LLM开源项目 – 高效的音乐生成与文本转语音系统

基于 PyTorch 的音乐生成和文本到语音（TTS）系统的实现，该系统使用基于 LLaMA 的大型语言模型（LLMs），并支持在单个 RTX 4090 GPU 上少于 10 小时内训练音乐生成模型

0

LLaMAPyTorch开源项目文本转语音

World’s Easiest GPT-like Voice Assistant开源项目 – 超简单的离线语音助手

超简单的类GPT语音助手，采用开源大型语言模型 (LLM) 以响应口头请求，完全在树莓派上本地运行。它不需要互联网连接或云服务支持。

0

AI语音识别本地运行的语音助手树莓派语音助手离线语音助手

Nexa SDK开源项目 – 全面支持多种模型的工具包

Nexa SDK是一款全面支持ONNX和GGML模型的工具包，具备文本生成、图像生成、视觉-语言模型（VLM）、自动语音识别（ASR）和文本到语音（TTS）功能，提供OpenAI兼容的API服务器，支持JSON模式调用函数和流媒体，配备用户友好的Streamlit UI，方便开发者使用和集成。

0

GGML模型支持ONNX模型支持OpenAI兼容APIStreamlit UI

Stability AI TTS Model官网 – 通过文字生成高保真语音

一种新型的文本到语音模型，通过文字描述生成高保真的语音，无需提前录制人声样本。

0

声音风格创造文本到语音生成自然语言处理高保真语音合成

aisearch-openai-rag-audio开源项目 – 基于语音的智能知识库问答应用

基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答，集成了Azure OpenAI的GPT-4实时语音API，可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景。

0

Azure AI SearchOpenAI GPT-4实时语音API语音交互应用

AI-ContentCraft开源项目 – 多功能的内容创作助手

AI-ContentCraft是一款多功能的内容创作助手，能用AI快速生成故事、播客脚本和多媒体内容，让创作者轻松搞定创意内容。

0

AI内容创作助手AI生成故事创意文案生成多媒体内容创作

CoDi-2开源项目 – 多功能的交互式多模态大语言模型

CoDi-2是一种多功能、交互式的多模态大语言模型 (MLLM)，它可以以任意对任意的方式遵循复杂的多模态交错指令、进行上下文学习 (ICL)、推理、聊天、编辑等。

0

交互式对话图像合成复杂指令理解多模态大语言模型

Stable Audio Open官网 – 开源文本转音频模型

这款开源（open-weight）的文本转音频模型可根据文本提示生成 44.1kHz 的高质量立体声音频。它非常适合合成逼真的声音和现场录音，可以运行在消费级 GPU 上，因此非常适合学术研究和艺术用途。

0

声音合成学术研究开源文本转音频模型艺术项目音频制作

ComfyUI-TeaCache开源项目 – 加速推理的 ComfyUI 插件

集成了 TeaCache 的 ComfyUI 插件，用于加速图像、视频和音频扩散模型的推理过程，支持多种模型，并提供了简单的安装方法和推荐配置

0

ComfyUI插件加速推理性能优化扩散模型

openai-edge-tts开源项目 – 开源免费的高质量文本转语音API

openai-edge-tts 是一个开源免费的文本转语音 API，利用微软 Edge 的在线语音服务，能够生成多种语音选项和播放速度，用户无需付费即可体验高质量的文本转语音功能。

0

多种音频格式支持开源文本转语音API微软Edge语音服务自由调节播放速度

MusicGen Trainer开源项目 – 简化MusicGen模型训练

MusicGen模型训练器，旨在简化MusicGen和Audiocraft模型的训练过程，提供用户友好的界面和强大的功能，帮助用户轻松进行音频模型的训练和评估。

0

MusicGen模型训练器数据增强模型评估工具音频模型训练

KaraFan开源项目 – 为卡拉OK爱好者提供优质的演唱体验

KaraFan利用人工智能的最佳音乐分离模型，能够高效地将歌曲中的人声分离出来，为卡拉OK爱好者提供更好的歌曲演唱体验，支持多种音乐格式，基于先进的人工智能技术。

0

AI音乐分离工具人声分离技术卡拉OK演唱体验

CosyVoice-api开源项目 – 简化声音合成的接口项目

一个让声音合成变得简单的接口项目，能帮用户轻松地将文字转换成各种语言和音色的语音，无论是常见的男女声还是特定语言的音色，都能轻松搞定，大大方便了需要语音合成的场景

0

CosyVoice-api多语言语音合成文本转语音语音合成接口

Kokoro-FastAPI开源项目 – 基于Docker的文本到语音模型部署

Kokoro-FastAPI是一个基于Docker的FastAPI包裹，用于Kokoro-82M文本到语音模型的部署，支持NVIDIA GPU和CPU ONNX加速推理，具备自动分割和拼接功能，旨在提供高效、灵活的语音合成服务。

0

Docker部署FastAPINVIDIA GPU加速ONNX推理

Anim-400K开源项目 – 大规模视频配音数据集，支持英语和日语

Anim-400K是一个大规模的视频配音数据集，包含了英语和日语两种语言的音视频剪辑，由超过425,000个对齐的剪辑（763小时）组成，涵盖了190多种不同的作品，涉及数百个主题和流派，适用于各类自动化配音任务。

0

多语言配音应用大规模视频配音数据集自动化配音任务语音合成研究

chatgpt-conversation开源项目 – 与ChatGPT进行语音对话

通过语音与ChatGPT进行实时对话，让其用声音回应你，提供友好的交流体验。

0

多语言支持实时对话语音对话语音识别

Nendo core开源项目 – 为开发者提供的AI音频工具套件

Nendo core是为开发人员设计的AI音频工具套件，提供了一个易于使用的、轻量的框架，集成了音频处理和库管理的基本要素，拥有可扩展的插件架构和不断增长的AI音频插件生态系统，涵盖了广泛的用例。

0

AI音频工具套件插件管理自定义音频工具音频处理

AsrTools开源项目 – 智能语音转文字工具

AsrTools 是一款智能语音转文字工具，集成了剪映、快手、必剪的官方接口，支持高效的批量处理，提供用户友好的界面，无需 GPU，可以免费使用大厂的 ASR 服务，支持 SRT 和 TXT 格式的输出。

0

SRT和TXT格式输出免费ASR服务批量处理音频智能语音转文字工具

Hertz-dev开源项目 – 开源全双工会话音频生成模型

Hertz-dev是一个开源的基础模型，专门用于全双工生成会话性音频，使设备能够理解和参与对话，适用于各种设备，具有良好的扩展性和灵活性。

0

全双工音频生成实时对话系统开源会话音频模型智能助手集成

XTTS开源项目 – 高质量的开源语音合成

XTTS 是一个开源文本到语音（TTS）项目，旨在提供高质量的语音合成，支持多种语言，适用于不同的应用场景，如语音助手和有声书制作。

0

开源文本到语音项目有声书制作语音助手高质量语音合成

Fast-Powerful-Whisper-AI-Services-API开源项目 – 强大的异步语音识别服务

旨在构建一个强大、高性能的异步 Whisper 服务 API，支持高扩展性和分布式处理需求，适用于大规模自动语音识别场景，并集成了多平台爬虫，如抖音和 TikTok。

0

Whisper API多平台媒体处理异步语音识别服务社交媒体数据抓取

WhisperS2T开源项目 – 优化的语音转文本管道

WhisperS2T是一个为Whisper模型优化的语音转文本处理管道，支持多个推理引擎，旨在提供高准确率和灵活配置选项的语音识别解决方案。

0

Whisper模型实时语音识别批量处理音频语音转文本

Loopy开源项目 – 基于音频驱动的头像动画生成

Loopy是一个能够利用长期运动依赖性生成自然运动模式的项目，仅通过音频生成生动的运动细节，支持多种视觉和音频风格，消除手动指定空间运动模板的需求，生成运动自适应的合成结果。

0

情绪驱动动画自然运动模式生成逼真歌唱表演动画音频驱动头像动画生成

MiniCPM-o-2_6官网 – 新型混合模型，具备多种功能

MiniCPM-o-2_6是Openbmb发布的一款新的混合模型，结合了多个先进模型，能够处理视觉、语音、视频流和OCR等多种任务，具有强大的功能和灵活的应用场景。

0

OCR功能多功能AI模型实时解析新型混合模型

Sound reconstruction from human brain activity via a generative model with brain-like auditory features-利用AI重建大脑活动对应的声音

通过功能磁共振成像和生成人工智能模型重建人类大脑活动的声音，为感知体验的神经表征提供了见解。

0

功能磁共振成像声音重建大脑活动解码深度神经网络

Voice Changer开源项目 – 实时变声软件

Voice Changer 是一款实时语音转换客户端，支持Windows和Mac。它可以实时变声成其他人或者虚拟角色的音色，可以接入多种语音转换技术。

0

实时变声软件游戏配音直播语音实验

Stable Audio开源项目 – 一款实现音乐和音效自由的AI工具

Stable Audio是一款通过A100 GPU技术，能够在8秒内渲染最长95秒的44.1kHz立体声音频的AI工具。它支持生成多种风格的音乐和音效，适用于音乐创作、游戏音效等多个领域。

0

AI音乐生成工具AI音效创作工具快速音频渲染

OpenAI TTS官网 – 强大的文字转语音工具

OpenAI 新发布的 TTS 文字转语音，效果太棒了！支持多种语言的混合输入，提供多种声音选择，无需安装，在线免费使用。

0

在线语音合成多语言支持文字转语音工具