CoVoMix项目旨在推进人类般的多说话者对话的零样本语音生成技术,能够创建流畅的对话体验,支持多位说话者之间的自然交流。
HeyGen的视频翻译(中文配音)解决方案,通过上传视频实现口型完美对齐的配音翻译。
Sketch2Sound 是一种生成音频模型,通过时变信号和声音模仿实现音频生成,能够从一组可解释的时变控制信号创建高质量的声音。
EchoMimicV2是一个开源的人体动画生成模型,支持通过音频输入生成逼真的半身人物动画,具有引人注目的动作表现力和协调一致的表情与肢体动作,简化了生成流程,适用于多种创作场景。
微软的文本转语音头像项目,允许用户通过文本输入创建会说话的头像视频,构建实时交互式机器人。
ChatTTS资源大全专注于提供多样化的聊天和文本转语音资源,支持多种语言和灵活的API接口,适合开发各种语音相关应用。
一个基于AI的音频处理模型,旨在提供高效的音频指令和处理能力。
基于Zephyr 7B模型使用自定义语音进行本地AI对话,使用RealtimeSTT和faster_whisper进行转录,使用RealtimeTTS和Coqui XTTS进行语音合成,提供了一个实时的聊天机器人,可以进行语音交互。
音乐源分离的小型项目,用简单易懂的方式帮助人们将音乐中的不同声音部分(如人声、乐器声等)分离出来,对于音乐制作和音频处理爱好者来说很有帮助。该项目基于Pytorch实现,使用MUSDB18HQ数据集进行训练和验证,支持音乐中的人声与乐器声分离,适合音频处理初学者,容易上手。
用Rust编写的文本到语音转换工具,能将文本转换为多种语言的语音,特色在于使用了先进的CUDA技术来提升处理速度
基于 Gradio 的 WebUI,支持 Whisper、faster-Whisper、whisper-timestamped,具备 YouTube 下载器、声音分离器、转录、文本到语音(TTS)和翻译功能
Podcastfy 是一个开源工具,可以将视频、PDF、论文、网站和文章等内容一键转换为对话式的播客音频,为用户提供便捷的音频制作体验。
Audiblez是一个将电子书转换为有声书的工具,能够让用户在开车、健身等场景中轻松“阅读”,享受知识的乐趣,解放双眼。
Buzz是一个可以实时转文字的多语言语音转文字应用,支持处理语音和视频文件,适用于各种场景。
Offmute 是一款智能会议记录与分析工具,能够将音视频内容转换为文本,同时识别不同发言人,生成结构化会议报告,帮助用户更高效地管理会议内容。
一个全面的语音智能体测试和评估框架,帮助开发者优化LLM驱动的语音助手。它支持多种语言模型和提示词的对比测试,允许自定义评估指标,能够实现模型迁移和成本优化,同时系统地测试不同场景下的代理表现,非常适合语音助手的开发和迭代优化。
M-AILABS语音数据集:免费提供用于语音识别和语音合成的大型语音数据集,旨在帮助企业和开发者更好地利用人工智能和机器学习技术。
一款将MMAudio集成到ComfyUI的音频处理工具,旨在简化音频模型的加载和使用,提高音频编辑的便捷性和效率
WhisperX 是一个高效的语音识别工具,专门用于生成精确的字幕,支持多种音频格式,适合处理直播或录制的视频内容。
为了解决AI生成的视频缺少音效的问题,Action2Sound提供了一种环境感知动作声音生成的模型,能够根据视频内容生成相应的音效,极大提升了视频的表现力和观看体验。
通过LLM本质上理解和生成音乐的开源大型语言模型,能够生成结构良好的完整音乐,超越GPT-4基线。
Gemini多模态试炼场是一个用于构建实时语音和视频代理的 Python 应用,借助 Google 的新 Gemini 2.0 模型,支持实时语音和视频输入以及音频回应。该应用程序提供两种版本:完整的全栈 web 应用程序和独立的 Python 脚本,方便用户根据需求选择。
一种计算效率高的多模态混合专家模型,能够从包括多个长文档和数小时的视频和音频在内的数百万个Tokens上下文进行推理。
整理和提供用于构建通用语音、音频和音乐基础模型的数据集列表,以及相关的元数据和获取途径。该项目旨在帮助研究人员和开发者快速找到所需的音频数据集,以便进行模型训练和分析。
Whispo是一款AI驱动的语音听写工具,能够让用户按住Ctrl键录音并自动转写文本。它兼容任何文本输入应用,确保数据仅存储在本地以保障用户隐私。此外,Whispo还支持使用自定义API和后处理语言模型进行转写,提供灵活的使用体验。
NotebookLM是一款结合了Deepseek-V3语言理解和PlayHT文本转语音功能的开源工具,能生成自然流畅的对话并将其转换为逼真的音频,适用于教育和娱乐领域。
ArXiv Paper Reader旨在简化和流利地阅读arXiv论文,使用LaTeX代码转换为HTML页面,然后提取文本和公式,将其转换为视频,同时创建与PDF文档相匹配的图形,并将文本分段以转换为音频。这一工具使得研究者和学生能够更高效地获取和理解论文内容。
MM-LLM是一个增强现有大型语言模型的框架,支持多模态输入和输出,同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计,并回顾了在主流基准上的表现,旨在推动多模态任务的发展。
Eliza是一个为Twitter和Discord平台设计的对话Agent,能够模拟多个角色进行实时交流。它支持语音频道,并具备阅读链接、PDF文件的能力,能够转录音频和视频内容,同时总结对话要点。此外,Eliza还允许用户扩展自定义动作和客户端,提供更加个性化的使用体验。
RealtimeSTT_LLM_TTS是一个结合流式大型语言模型和GPT-SOVITS的工具,支持实时语音转文字和语音合成,能够通过网页实现跨网络服务调用,方便用户在不同场景中进行高效的语音交互。