Towhee 是一个开源的嵌入框架与社区,旨在帮助用户使用深度学习的方法处理非结构化数据,如图片、视频和自然语言。
一个用于人声分离的工具,旨在帮助用户从音乐中去除人声,保留伴奏。
这是一个基于Streamlit的实时网页语音转文本应用,能够快速将语音转换为文本,支持多种音频输入方式,易于使用和部署。
这是一个音频字幕的数据集,旨在评估音乐与语言模型的性能,包含多种歌曲的音频描述,促进音乐与自然语言处理交叉领域的研究。
NExT-GPT是一个先进的多模态生成模型,能够处理文本、图像、视频和音频等多种输入,以任意组合生成丰富的输出。它仅需调整少量参数,具有低成本训练的优势,同时具备复杂的跨模态语义理解和内容生成能力,适合扩展到更多的应用场景。
VisionCrafter是一个具有图形用户界面的工具,支持AnimateDiff和其他项目,能够从文本生成动画和音乐。它非常适合制作短视频和GIF,以及创建简短的电影场景。
音乐基础模型是一个全面概述音乐领域最先进的预训练模型和基础模型,旨在为音乐创作和分析提供强大的支持。它基于深度学习技术,能够生成高质量的音乐作品,理解多种音乐风格,并具备出色的处理能力。
一款将文字描述转化为MIDI音乐文件的模型,能让用户根据详细的文本提示生成符合特定和弦、节奏和风格的符号音乐,为音乐创作带来全新的便捷方式
Hugo-Dz语音转文本助手是一款轻量级应用,能够将任何语音实时转换为文字,完全本地处理,使用Ratchet技术,支持作为网站部署或构建为桌面应用。
Whisper-V3 是最新的开放源代码语音识别模型,相较于 Whisper-V2 有了显著改进,能够将音频直接转换为文本,并支持多任务处理,适用于多种应用场景。
一款基于苹果MLX框架的本地推理服务器,专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口,实现文本对话、语音转换、图像生成等AI能力。
Linly-Dubbing是一款开源且强大的视频多语言AI配音/翻译工具,能够一键自动下载全平台视频,对视频字幕进行翻译,还能对原视频进行人声分离,克隆音色并重新配音,再对视频进行合成,全过程自动化。它融合了YouDub-webui的灵感并进行了优化,致力于提供多样化和高质量的配音选择。
UltraEval-Audio是一个评估音频大模型的工具,类似于给智能语音助手打分,能够快速、方便地测试其表现,旨在帮助开发者优化和提升语音相关应用的质量。
Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列,能够处理时长超过20分钟的视频,同时在文档理解方面表现出显著优势。该模型支持多模态输入,能够处理视频和文本数据,适用于多种应用场景。
整合了Mistral大型语言模型的实时语音转文本系统,基于WhisperLive和WhisperSpeech,提供高性能和低延迟处理。
Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型,支持多种语言,并提供即时语音克隆,具备超低延迟,约1GB的模型重量,模型权重可在Hub上获取。
一款强大的多模态大语言模型,能在手机上实现视觉、语音和多模态直播的强大功能,让手机也能拥有类似GPT-4o的智能表现
STT是一个经过实战验证的深度学习工具包,专注于语音转文本技术,适用于研究和生产环境。
Spirit LM是一个端到端的语音模型,提供基础版和高表现力版,能够进行高效的语音识别和生成,支持直接使用语音标记等多种特性,适用于复杂任务的处理。
一款响应快速且完全本地化的 AI 语音聊天工具,使用 WebSockets 实现低延迟语音交互,支持本地运行语音识别、文本转语音以及大语言模型。
DeepSeek-R1-Sistill是量化版本的音频处理工具,旨在适应各种计算环境,能够高效地进行声音处理及分析。
Whisper Turbo 是 Open AI 开源的一个新型 Whisper turbo 模型,基于 Large v3 模型的蒸馏,显著提高了运行速度和效率。该模型在保持高准确度的同时,提供了更佳的显存使用效率,适用于多种音频处理任务。
Whisper Web 是一个开源项目,允许用户在浏览器中运行基于机器学习的语音识别,无需后端服务器。它利用 WebGPU 技术实现加速,用户可以轻松进行语音转文本,并支持将识别结果导出为 TXT 和 JSON 文件格式,完全开箱即用。
Bark with Voice Clone 是一个支持音色克隆的文本到音频生成工具,能够处理中文文本,并允许用户根据自定义音频/文本对生成音频。该项目结合了生成音频模型和音色克隆技术,提供丰富的音频创作可能性。
Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案,支持Linux和Windows系统,能够满足多种应用需求。
该项目汇总了ChatTTS的常见问题及相关资源,为用户提供最佳的入门指导,帮助用户快速上手和解决问题。
视频内容分析工具,通过结合Llama3.2视觉模型和OpenAI的Whisper模型,本地生成视频描述,提供全面的视频分析解决方案。
Moshi是一个实时对话的语音文本基础模型,使用先进的流式神经音频编解码器Mimi,支持双向语音流处理,具有低延迟和高效率的特点。
基于自然语言提示生成音乐的本地LLM应用,无需安装重型依赖即可高效运行最新的音乐生成AI模型。支持多种音乐风格和格式,用户可以通过输入文本提示及调整参数,轻松制作个性化音乐作品。
一款开源的自动化 AI 播客生成工具,能够自动抓取网络新闻内容,并生成听起来自然流畅的叙述性音频播客。