AI音频工具 | 第 27 页

TangoFlux开源项目 – 用AI快速实现高质量的文生音频

TangoFlux 是一款超快且忠实的文字转音频生成器，采用流匹配技术，能够快速将文本转换为高质量的音频。它具有惊人的效率和领先的性能，支持多种语言和音调，并提供易于集成的API，推动语音合成领域的发展。

0

API集成开源语音合成快速音频生成文本转音频生成器

Text-to-Sing官网 – 输入文字直接生成歌曲

Text-to-Sing项目允许用户输入歌词并通过上传旋律，让计算机按照该旋律演唱。该工具旨在简化音乐创作过程，使用户能够轻松生成歌曲。

0

AI生成歌曲Text-to-Sing音乐创作工具

MyHeyGen开源项目 – 开源AI语音合成与文本生成工具

MyHeyGen 是一个开源的AI工具，结合了语音合成和文本生成技术，能够实现逼真的语音效果和高效的内容创作，支持多种音频格式和语言，适用于个人创作及商业应用。

0

创意内容生成口型动画多语言支持学习材料生成

ebook2audiobook开源项目 – 将电子书轻松转换为有声书的工具

ebook2audiobook是一款开源工具，支持1100+种语言，能够将各类电子书一键转换为带章节的有声书，使用高质量的AI语音合成技术，并可克隆个人声音进行朗读，提供简单直观的网页界面和命令行模式，适合不同用户的需求。

0

AI语音合成克隆个人声音开源工具批量处理

Frechet Music Distance开源项目 – 音乐生成质量评估工具

音乐生成质量评估工具，用于比较生成音乐与真实音乐的相似度，帮助音乐生成模型的开发和优化

0

Frechet距离计算Python音乐比较工具音乐生成模型优化音乐生成质量评估工具

PTTS-WebAPP开源项目 – 基于Flask和Vue的语音合成演示

PTTS 网页演示 - Parallel TTS web demo based on Flask + Vue (Vuetify)。这是一个基于 Flask 和 Vue 的语音合成单网页演示项目，支持并行语音合成，提供现代化的用户界面，适用于浏览器的单页应用，易于使用和部署。

0

FlaskVue单页应用并行语音合成

AudioCraft官网 – 音频类生成式AI，已开源

AudioCraft是一个音频类生成式AI项目，由MusicGen、AudioGen和EnCodec三种模型组成，支持多种音频处理任务，具有强大的音频生成能力，并且是一个开源项目。

0

开源音频处理工具音频合成音频生成AI音频编码解码

firecrawl-openai-realtime开源项目 – 智能实时API工具

该项目集成了Firecrawl的OpenAI实时API控制台，支持实时交互和音频管理，适用于浏览器和Node.js环境，用户可以通过声音引导AI代理实时爬取和浏览网站内容。

0

AI语音交互Node.js环境支持实时API工具网站内容爬取

GAIA开源项目 – 从图像和声音生成会说话的化身

GAIA是一个可以从单个肖像图像和语音片段生成会说话的化身的人工智能项目。它支持通过文字提示来指导视频生成。

0

个性化虚拟化身从图像生成视频动态角色生成在线教学化身

Local Talking LLM开源项目 – 离线语音助手，随时随地可用

本地语音助手：无需联网即可在个人电脑上运行的语音助手，集成了语音识别和语音合成功能，打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验

0

个性化定制智能助手体验离线语音助手语音合成

VoiceBank-2023开源项目 – 个性化普通话TTS系统的语音语料库

专门为构建个性化普通话文本转语音(TTS)系统而设计的语音语料库，提供多样的语音样本，适合训练深度学习模型，支持多种语音合成技术的研究与应用，易于扩展和集成到现有的TTS框架中。

0

TTS框架集成个性化TTS系统深度学习模型训练语音合成技术

Mini-LLaVA开源项目 – 轻量级多模态大语言模型

Mini-LLaVA是一款轻量级的多模态大语言模型，能够处理图像、文本和视频输入，实现高效且灵活的多模态数据处理。其设计旨在简化多模态应用的开发，提供了简约的实现和灵活的接口，方便用户进行快速开发和实验。

0

图像分析多模态数据处理智能问答视频流处理

RealtimeTTS开源项目 – 实时文本到语音转换库

一个实时文本到语音转换库，通过识别句子片段来实现即时的听觉反馈，适用于需要即时音频响应的应用程序。

0

交互式娱乐应用实时文本到语音转换客户服务自动化智能语音助手

PDF2Audio开源项目 – 灵活定制的音频生成工具

PDF2Audio是一个开源项目，旨在为用户提供一种从PDF文件生成音频内容的灵活解决方案，支持多种类型的音频内容生成，如播客、讲座、讨论以及短/长篇摘要，适用于教育、娱乐和信息传播场景。

0

PDF转音频工具开源音频生成项目播客制作工具教育音频内容生成

Data-Speech开源项目 – 语音数据集标注实用工具

用于标注语音数据集的实用脚本套件，旨在为基于语音的人工智能模型（如文本到语音引擎）开发过程中所需要的音频变换（或注释）提供简洁、干净的代码库

0

AI模型训练文本到语音引擎开发语音数据集标注工具

GoMaxAI-ChatGPT-Midjourney-Pro开源项目 – 集成多种AI服务的高效平台

基于Node.js、Vue3、uniapp的AIGC平台，集成ChatGPT、Midjourney绘画、Suno音乐、视频服务等，支持私有化部署，适用于个人、团队和企业。该平台为用户提供了一站式的AI解决方案，能够满足不同用户的需求，包括创意写作、艺术创作和内容生成等。

0

AI集成平台企业服务内容生成创意写作

kokoroTTS官网 – 一个强大的文字生成语音模型

kokoroTTS是一个文字生成语音模型，现已推出WASM版本，可以直接在浏览器中运行，支持高质量的语音生成，适配多种硬件，快速生成语音，方便用户在各种场景下使用。

0

在线教育工具文字生成语音模型浏览器语音合成高质量语音生成

Open-Lyrics开源项目 – 音频转录与翻译工具

Open-Lyrics是一个可以将音频转录为文本并翻译为LRC格式文件的工具，使用先进的whisper和gpt技术，支持多种语言，方便用户生成音乐字幕。

0

LRC字幕生成音频翻译工具音频转录工具

Kokoros开源项目 – 超快文本转语音引擎

用Rust语言实现的超快文本转语音（TTS）引擎，只需一个命令就能合成高质量语音，支持多种语言，让语音合成变得简单快捷

0

Rust语言命令行TTS引擎超快文本转语音高质量语音合成

GTSinger开源项目 – 全球多技术歌唱语料库

GTSinger是一个全球性多技术歌唱语料库，提供真实的乐谱，适用于各种歌唱任务。

0

AI系统歌唱质量评估全球多技术歌唱语料库歌唱合成研究歌声转换模型

Unsupervised-TTS开源项目 – 简单有效的无监督语音合成

Unsupervised-TTS是由Cheng-I Jeff Lai开发的无监督语音合成系统，旨在利用无监督学习算法提高语音合成的质量和效率，同时支持多种语言，便于与现有系统集成。

0

多语言支持无监督语音合成自定义数据集语音合成系统

whisper-cli-rs开源项目 – 基于Rust的语音识别命令行工具

whisper-cli-rs是一个使用Rust编写的命令行工具，基于whisper.cpp，支持多种音频格式，实现实时语音转文本，并允许用户自定义模型选择。

0

Rust命令行工具实时语音转文本自定义模型选择语音识别工具

NExT-GPT开源项目 – 任意多模态大语言模型

NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型，具有灵活的处理能力，可广泛应用于文本、语音、图像和视频等多种场景。

0

图像描述生成多模态大语言模型文本转语音视频信息提取

StableTTS开源项目 – 轻量级的汉语与英语语音生成模型

StableTTS是一个轻量级的文本到语音（TTS）模型，专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数，适合在资源有限的环境中使用。它基于流匹配和DiT技术，是下一代TTS模型，灵感来源于Stable Diffusion 3，能够高效地产生自然流畅的语音。

0

TTS模型实时语音合成汉语与英语语音合成语音助手

Groqnotes开源项目 – 音频生成结构化笔记的工具

用Groq、Whisper和Llama3从音频生成结构化笔记的工具，能快速整理讲座笔记，优化学习和复习过程

0

学习笔记整理提高复习效率音频生成结构化笔记工具

music-to-image官网 – 根据音乐生成视觉图像

该项目能够根据上传的音乐文件生成对应的视觉图像，适用于视频制作和艺术创作，能够将音乐与视觉艺术结合，为创意项目提供灵感。

0

多媒体艺术作品根据音乐生成视觉图像艺术创作视频制作

PodCastLM开源项目 – 将PDF内容转换为音频播客

一个将PDF内容转换成自然对话形式的音频播客工具，支持输出为MP3文件，让你的知识和信息以声音的形式传播

0

MP3文件输出PDF内容转换为音频播客知识传播工具自然对话音频生成

RealtimeSTT开源项目 – 强大高效的语音转文本工具

一个强大高效、低延迟的语音转文本工具，支持状态监测和唤醒词触发。

0

GPU加速低延迟语音识别唤醒词触发实时语音转文本工具

Diarizers开源项目 – 用于微调说话人辨识模型的库

Diarizers是一个用于微调pyannote说话人辨识模型的库，利用Hugging Face生态系统，提供了便捷的模型训练和评估功能。

0

Hugging Face生态系统Pyannote库微调说话人辨识模型模型训练与评估

minimal-musicgen-for-developers开源项目 – 极简音乐生成模型，易于上手

为开发者提供的极简版音乐生成模型，简化了Meta的MusicGen模型代码，让开发者更容易上手和修改，实现高质量音乐创作。

0

PyTorch音乐生成开发者工具极简音乐生成模型高质量音乐创作