AI音频工具 | 第 26 页

Towhee开源项目 – 开源嵌入框架，处理非结构化数据

Towhee 是一个开源的嵌入框架与社区，旨在帮助用户使用深度学习的方法处理非结构化数据，如图片、视频和自然语言。

0

图像嵌入开源嵌入框架深度学习自然语言处理

Colaboratory Notebook for Ultimate Vocal Remover开源项目 – 一个人声分离的工具

一个用于人声分离的工具，旨在帮助用户从音乐中去除人声，保留伴奏。

0

人声分离工具实时音频处理深度学习音频处理用户友好的音频工具

streamlit-stt-app开源项目 – 实时语音转文本应用

这是一个基于Streamlit的实时网页语音转文本应用，能够快速将语音转换为文本，支持多种音频输入方式，易于使用和部署。

0

Streamlit实时语音转文本应用语音识别音频转录

The Song Describer Dataset开源项目 – 用于音乐与语言模型评估的数据集

这是一个音频字幕的数据集，旨在评估音乐与语言模型的性能，包含多种歌曲的音频描述，促进音乐与自然语言处理交叉领域的研究。

0

自然语言处理音乐与语言模型评估音乐分类任务音频字幕数据集

NExT-GPT-下一代多模态生成模型

NExT-GPT是一个先进的多模态生成模型，能够处理文本、图像、视频和音频等多种输入，以任意组合生成丰富的输出。它仅需调整少量参数，具有低成本训练的优势，同时具备复杂的跨模态语义理解和内容生成能力，适合扩展到更多的应用场景。

0

人工智能研究内容生成多模态生成模型跨模态语义理解

VisionCrafter开源项目 – 从文本生成动画与音乐的工具

VisionCrafter是一个具有图形用户界面的工具，支持AnimateDiff和其他项目，能够从文本生成动画和音乐。它非常适合制作短视频和GIF，以及创建简短的电影场景。

0

GIF制作文本生成动画文本生成音乐电影场景创建

音乐基础模型-先进的音乐生成与分析工具

音乐基础模型是一个全面概述音乐领域最先进的预训练模型和基础模型，旨在为音乐创作和分析提供强大的支持。它基于深度学习技术，能够生成高质量的音乐作品，理解多种音乐风格，并具备出色的处理能力。

0

深度学习音乐创作音乐分析工具音乐推荐系统音乐生成工具

Text2midi开源项目 – 将文字转化为MIDI音乐

一款将文字描述转化为MIDI音乐文件的模型，能让用户根据详细的文本提示生成符合特定和弦、节奏和风格的符号音乐，为音乐创作带来全新的便捷方式

0

AI音乐创作工具MIDI文件导出文本转MIDI音乐生成器

on-device-transcription开源项目 – 实时语音转文本助手

Hugo-Dz语音转文本助手是一款轻量级应用，能够将任何语音实时转换为文字，完全本地处理，使用Ratchet技术，支持作为网站部署或构建为桌面应用。

0

Ratchet技术实时语音转文本助手本地处理语音转录网站和桌面应用部署

Whisper-V3开源项目 – 目前最好的 OSS 语音识别模型

Whisper-V3 是最新的开放源代码语音识别模型，相较于 Whisper-V2 有了显著改进，能够将音频直接转换为文本，并支持多任务处理，适用于多种应用场景。

0

实时语音翻译开源语音识别时间戳对齐语音识别模型

MLX Omni Server开源项目 – 本地推理服务器，专为Apple Silicon优化

一款基于苹果MLX框架的本地推理服务器，专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口，实现文本对话、语音转换、图像生成等AI能力。

0

Apple Silicon优化OpenAI兼容API本地推理服务器硬件加速

Linly-Dubbing开源项目 – 智能视频多语言AI配音工具

Linly-Dubbing是一款开源且强大的视频多语言AI配音/翻译工具，能够一键自动下载全平台视频，对视频字幕进行翻译，还能对原视频进行人声分离，克隆音色并重新配音，再对视频进行合成，全过程自动化。它融合了YouDub-webui的灵感并进行了优化，致力于提供多样化和高质量的配音选择。

0

AI配音工具声音克隆多语言翻译自动下载视频

UltraEval-Audio开源项目 – 快速评估音频大模型表现

UltraEval-Audio是一个评估音频大模型的工具，类似于给智能语音助手打分，能够快速、方便地测试其表现，旨在帮助开发者优化和提升语音相关应用的质量。

0

实时音频评估语音应用性能测试音频模型评估工具

Qwen2-VL开源项目 – 多模态大模型，理解长视频与文档

Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列，能够处理时长超过20分钟的视频，同时在文档理解方面表现出显著优势。该模型支持多模态输入，能够处理视频和文本数据，适用于多种应用场景。

0

信息提取图像处理多模态大模型文本翻译

WhisperBot开源项目 – 高效实时语音转文本系统

整合了Mistral大型语言模型的实时语音转文本系统，基于WhisperLive和WhisperSpeech，提供高性能和低延迟处理。

0

会议记录实时语音转文本系统语音助手语音识别

Fish Speech 1.4官网 – 最新的开源文本转语音模型

Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型，支持多种语言，并提供即时语音克隆，具备超低延迟，约1GB的模型重量，模型权重可在Hub上获取。

0

多语言语音生成开源语音克隆文本转语音模型

MiniCPM-o开源项目 – 强大的多模态大语言模型

一款强大的多模态大语言模型，能在手机上实现视觉、语音和多模态直播的强大功能，让手机也能拥有类似GPT-4o的智能表现

0

个性化语音助手多模态大语言模型多模态直播移动设备智能应用

STT开源项目 – 深度学习语音转文本工具包

STT是一个经过实战验证的深度学习工具包，专注于语音转文本技术，适用于研究和生产环境。

0

多语言支持实时语音转文字开源工具深度学习语音转文本工具包

Spirit LM开源项目 – 一个强大的语音识别与生成模型

Spirit LM是一个端到端的语音模型，提供基础版和高表现力版，能够进行高效的语音识别和生成，支持直接使用语音标记等多种特性，适用于复杂任务的处理。

0

情感识别文本转语音自动语音识别语音生成

voicechat2开源项目 – 快速响应的本地化AI语音聊天工具

一款响应快速且完全本地化的 AI 语音聊天工具，使用 WebSockets 实现低延迟语音交互，支持本地运行语音识别、文本转语音以及大语言模型。

0

低延迟语音交互文本转语音本地化AI语音聊天工具语音识别

DeepSeek-R1-Sistill官网 – 量化版音频处理工具

DeepSeek-R1-Sistill是量化版本的音频处理工具，旨在适应各种计算环境，能够高效地进行声音处理及分析。

0

声音分析机器学习模型优化量化音频处理音频处理工具

Whisper Turbo官网 – 高效音频转录与翻译模型

Whisper Turbo 是 Open AI 开源的一个新型 Whisper turbo 模型，基于 Large v3 模型的蒸馏，显著提高了运行速度和效率。该模型在保持高准确度的同时，提供了更佳的显存使用效率，适用于多种音频处理任务。

0

OpenAIWhisper Turbo机器学习应用音频翻译

Whisper Web开源项目 – 浏览器中直接运行的语音识别项目

Whisper Web 是一个开源项目，允许用户在浏览器中运行基于机器学习的语音识别，无需后端服务器。它利用 WebGPU 技术实现加速，用户可以轻松进行语音转文本，并支持将识别结果导出为 TXT 和 JSON 文件格式，完全开箱即用。

0

WebGPU加速开源项目浏览器语音转文本语音识别

Bark with Voice Clone开源项目 – 支持音色克隆的文本到音频生成

Bark with Voice Clone 是一个支持音色克隆的文本到音频生成工具，能够处理中文文本，并允许用户根据自定义音频/文本对生成音频。该项目结合了生成音频模型和音色克隆技术，提供丰富的音频创作可能性。

0

文本到音频生成工具自定义音频生成音色克隆技术

Fish Speech开源项目 – 全新的文本转语音解决方案

Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案，支持Linux和Windows系统，能够满足多种应用需求。

0

文本转语音解决方案聊天机器人语音功能语音助手集成跨平台TTS

Awesome-ChatTTS开源项目 – ChatTTS项目的常见问题解答与资源汇总

该项目汇总了ChatTTS的常见问题及相关资源，为用户提供最佳的入门指导，帮助用户快速上手和解决问题。

0

ChatTTS入门指导常见问题解答文本到语音应用资源汇总

Video Analyzer开源项目 – 视频内容分析工具

视频内容分析工具，通过结合Llama3.2视觉模型和OpenAI的Whisper模型，本地生成视频描述，提供全面的视频分析解决方案。

0

Llama3.2视觉模型OpenAI Whisper模型视频内容分析工具视频描述生成

Moshi开源项目 – 实时对话的语音文本基础模型

Moshi是一个实时对话的语音文本基础模型，使用先进的流式神经音频编解码器Mimi，支持双向语音流处理，具有低延迟和高效率的特点。

0

实时对话语音识别智能设备语音交互语音到文本转换语音助手

MusicGPT开源项目 – 生成音乐的本地AI应用

基于自然语言提示生成音乐的本地LLM应用，无需安装重型依赖即可高效运行最新的音乐生成AI模型。支持多种音乐风格和格式，用户可以通过输入文本提示及调整参数，轻松制作个性化音乐作品。

0

基于自然语言生成音乐本地音乐生成AI应用音乐风格定制音频格式导出

AI Podcast Generator开源项目 – 自动化生成流畅播客的工具

一款开源的自动化 AI 播客生成工具，能够自动抓取网络新闻内容，并生成听起来自然流畅的叙述性音频播客。

0

AI生成播客可视化界面文本转语音新闻内容抓取