AI音频工具 | 第 30 页

God app开源项目 – 一个整合多种生成AI的应用

将图像生成、视频生成、音频生成和通用自然语言处理整合到一个界面中，只需一个提示，即可完成所有需求

0

AI整合应用图像生成自然语言处理视频生成

sherpa-onnx开源项目 – 支持多种语音处理功能的框架

sherpa-onnx是一个功能强大的框架，支持语音转文字、文字转语音和说话人识别等多种功能。它设计为轻量级，能够在低功耗设备上高效运行，且遵循MIT协议，便于开发者使用和集成。

0

MIT协议文字转语音语音转文字说话人识别

whisper-cpp-python开源项目 – Python封装的whisper.cpp

whisper-cpp-python是whisper.cpp的Python绑定，提供高效的语音识别功能，支持多种音频格式，具有简单易用的API和多线程处理能力。

0

Python封装多线程处理语音识别音频转文本

ChatTTS开源项目 – 对话场景的文本转语音模型

ChatTTS是专门为对话场景设计的文本转语音模型，支持英文和中文两种语言，提供自然流畅的语音合成和多说话人的支持。

0

多说话人支持文本转语音模型细粒度控制自然流畅语音合成

Awesome-Audio-LLM开源项目 – 音频处理与生成的资源集合

音频领域的大型语言模型集合，专注于音频处理、理解和生成，为音频语言模型提供丰富的资源和工具

0

API音频分析社区驱动更新音频处理模型音频理解与生成

Neural Speech Synthesis开源项目 – 基于神经网络的语音合成技术

Neural Speech Synthesis是由Xu Tan和Hung-yi Lee在2022年Interspeech教程中介绍的一种先进的语音合成技术，利用深度学习算法生成自然流畅的语音，支持多种风格和情感，适用于多种应用场景。

0

Python API集成深度学习语音生成神经网络语音合成语音合成工具

libsio开源项目 – 语音输入输出的运行时库

libsio是一个用于语音输入（STT）和输出（TTS）的运行时库，支持高效的语音识别和自然流畅的语音合成，具有良好的跨平台兼容性，易于集成到各种应用程序中。

0

无障碍技术聊天机器人集成语音合成库语音识别库

whisper-jax开源项目 – 高效的多语言语音转文字模型

一个快速且高效的语音转文字（STT）模型，支持多语言自动识别和翻译功能。

0

多语言自动识别实时语音服务语音翻译语音转文字模型

OuteTTS开源项目 – 实验性的文本到语音模型

OuteTTS是一个实验性的文本到语音模型，采用纯语言建模方法生成语音，致力于提升语音合成的自然性和可控性。

0

文本到语音模型用户自定义声音自然语言处理语音合成

SEPIA Speech-To-Text Server开源项目 – 开源语音识别服务器

SEPIA 服务器支持通过WebSocket连接进行开源语音识别，易于自定义与扩展，兼容多种语音识别引擎。

0

WebSocket语音识别实时语音识别开源语音识别服务器自定义语音识别模型

noScribe开源项目 – 自动语音转录与说话人识别工具

noScribe是一个结合了OpenAI Whisper和pyannote技术的语音转录及说话人识别界面，旨在提供高效、用户友好的音频处理体验，支持多种音频格式的输入，能够快速准确地转录语音并识别说话人。

0

OpenAI Whisperpyannote用户友好的音频处理工具自动语音转录

open-tts-tracker开源项目 – 开源TTS项目的收集与比较

open-tts-tracker是一个专注于收集和比较各类开源文本转语音（TTS）项目的平台，旨在为用户提供最新的TTS模型信息和性能比较，帮助用户选择合适的TTS工具。该项目支持多种语言的文本转语音，拥有用户友好的界面，并且持续更新项目列表，确保信息的时效性。

0

TTS模型比较开源TTS项目文本转语音工具用户友好的TTS平台

Audioflare开源项目 – 一个全能的AI音频工具

Audioflare是一个基于Cloudflare AI Workers的全能音频平台，能够转录、分析、摘要和翻译任何音频文件。

0

AI音频转录工具音频内容分析音频摘要生成音频翻译工具

Kesha v3.0 (aka Jarvis update)开源项目 – 实验性语音助手

Kesha v3.0 是一个实验项目，结合了 Silero 的文本转语音、Vosk 的语音转文本、Picovoice Porcupine 的唤醒词检测和 ChatGPT 的智能对话功能，旨在提供自然流畅的语音交互体验。

0

唤醒词检测实验性语音助手文本转语音智能对话

pyvideotrans开源项目 – 视频翻译与配音工具

这是一个视频翻译配音工具，可将一种语言的视频翻译为指定语言的视频，自动生成和添加该语言的字幕和配音，并支持API调用。

0

API调用字幕生成批量处理视频翻译工具

语音识别转文字工具开源项目 – 离线语音识别，精准高效

一个离线运行的本地语音识别转文字服务，能够输出json、srt字幕及纯文字格式，支持多种语言和自定义词汇，提供高准确率的语音识别功能。

0

多语言支持离线语音识别工具自定义词汇支持语音转文字

Lobe Chat开源项目 – 开源现代化的GPT聊天应用

非常强大的GPT网页客户端，开源、现代化设计的 ChatGPT/LLMs 聊天应用与开发框架，支持语音合成、多模态、可扩展的插件系统。

0

图像生成多模态聊天开源聊天应用插件系统

WhisperX开源项目 – 强制时间对齐的精确语音识别

WhisperX是一个强制时间对齐的时间戳精确版Whisper语音识别工具，能够高效地进行多语言的语音识别，并生成带有精确时间戳的文本转录，适用于各种音频处理场景。

0

多语言语音识别带时间戳的文本转录强制时间对齐的语音识别工具

sherpa-ncnn开源项目 – 基于ncnn的高效实时语音识别

sherpa-ncnn 是一个使用下一代 Kaldi 和 ncnn 构建的实时语音识别系统，支持多种语言和方言，具备低延迟性能，适合各种实时应用场景。它提供灵活的模型部署选项，并兼容 Kaldi 的最新技术，能够满足开发者的多样化需求。

0

Kaldi兼容低延迟多语言支持实时语音识别

AI Voice Chat开源项目 – 高效的语音聊天解决方案

结合 fast-whisper-large-v3, Yi-34B-Chat-AWQ 和 XTTS-v2 的语音聊天项目，推理显存占用 33G。该项目提供高效的语音识别和合成，支持多种语言与方言，确保低延迟的语音交互，适合多种应用场景。

0

低延迟语音交互多语言支持客服机器人集成教育培训

OpenVoice开源项目 – 秒级语音克隆技术

OpenVoice 是一个由 MyShell、MIT、清华大学等机构联合开发的开源语音克隆项目，能够通过极短的语音样本（如3秒）精准克隆音色，支持多语言转换、情感控制和细粒度语音风格调整。其高效处理能力和开源特性使其适用于多种场景，包括个性化语音助手、游戏角色配音、多语言语音内容生成等。

0

多语言语音生成情感语音合成语音克隆高效语音转换

AudioGradio开源项目 – 一键启动的音乐生成工具

AudioGradio是一个集成了Audiocraft MusicGen和AudioGen的Web界面，用户可以通过简单的操作生成高质量的音频内容，体验音乐创作的乐趣。

0

Audiocraft MusicGenAudioGen一键启动音乐生成音频生成工具

The Audio Transformers Course开源项目 – Hugging Face音频Transformer课程资料

该课程提供了基于Transformer架构的音频处理技术，包含丰富的音频数据集和预训练模型，支持多种音频任务如分类、生成和转录，并结合实用示例和代码演示，帮助学习者掌握音频处理的最新技术。

0

Transformer架构数据集音频分类音频处理

SwiftWhisper开源项目 – Swift调用的语音识别库

SwiftWhisper是基于Whisper.cpp二次封装后，让Swift方便调用的库，基于它可以方便的开发语音识别转文字类的Whisper应用。

0

Swift语音识别库Whisper应用开发实时语音转文字

Emotivoice开源项目 – 情感驱动的中英语音合成引擎

Emotivoice是一个支持情感提示控制的中英双语语音合成TTS引擎，提供多达2000种语音选项，旨在通过情感分析与合成技术提升语音交互体验。

0

中英双语TTS引擎开源语音合成情感识别与合成情感驱动语音合成

insanely-fast-whisper开源项目 – 音频转录与语音分段的新实现

一个名为 insanely-fast-whisper 的新实现，使用 OpenAI's Whisper Large v3，适用于 Mac 或 Nvidia GPU，结合 Whisper + Pyannote 库加速音频转录和语音分段。

0

OpenAI Whisperpyannote批处理转录语音分段

Seamless Communication开源项目 – Meta推出的实时语音翻译模型

Meta 新推出的实时语音翻译模型 Seamless，能保持原声的表情和风格。该模型具备强大的语音生成和翻译能力，超越了现有的技术，提供自然流畅的多语言交流体验。

0

Seamless模型多语言交流实时语音翻译情感表达保留

TTS Generation WebUI (Bark v2, MusicGen, Tortoise, Vocos)开源项目 – 多模型支持的文本到语音生成工具

一个用于文本到语音生成的Web用户界面，支持多种语音合成模型，用户可以轻松创建高质量的语音合成音频。

0

多模型支持实时语音合成文本到语音生成工具用户友好的Web界面

metahuman-stream开源项目 – 流式数字人，实现音视频同步对话

基于ernerf模型的流式数字人，能够实现高质量的音视频同步对话，适用于商用场景，提供卓越的用户体验。

0

商用级别流式传输在线教育互动教学基于nerf模型的数字人技术实时音视频同步对话

auto ai subtitle translator开源项目 – 视频语音识别与字幕翻译工具

该项目结合了视频语音识别与字幕翻译技术，能够自动识别视频中的语音并生成字幕，同时支持多种语言的翻译功能，旨在提升视频内容的可访问性和多语言观众的体验。

0

多语言支持字幕翻译工具自动字幕生成视频语音识别