阿里AI项目DreamTalk开源,可让人物头像说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。
Text2Listen项目旨在让大语言模型能够理解人类语言,并做出合适的面部表情和动作,从而增强与用户的互动体验。该项目通过分析说话者的语音内容,生成对应的面部反应,并使用VQ-VAE技术对面部手势进行量化,确保生成的听众动作流畅且准确反映语言语义。此外,项目还将复杂的手势分解为简单的基础元素,从而提升聊天机器人的自然对话体验。
基于 PyTorch 的音乐生成和文本到语音(TTS)系统的实现,该系统使用基于 LLaMA 的大型语言模型(LLMs),并支持在单个 RTX 4090 GPU 上少于 10 小时内训练音乐生成模型
超简单的类GPT语音助手,采用开源大型语言模型 (LLM) 以响应口头请求,完全在树莓派上本地运行。它不需要互联网连接或云服务支持。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
一种新型的文本到语音模型,通过文字描述生成高保真的语音,无需提前录制人声样本。
基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答,集成了Azure OpenAI的GPT-4实时语音API,可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景。
AI-ContentCraft是一款多功能的内容创作助手,能用AI快速生成故事、播客脚本和多媒体内容,让创作者轻松搞定创意内容。
CoDi-2是一种多功能、交互式的多模态大语言模型 (MLLM),它可以以任意对任意的方式遵循复杂的多模态交错指令、进行上下文学习 (ICL)、推理、聊天、编辑等。
这款开源(open-weight)的文本转音频模型可根据文本提示生成 44.1kHz 的高质量立体声音频。它非常适合合成逼真的声音和现场录音,可以运行在消费级 GPU 上,因此非常适合学术研究和艺术用途。
集成了 TeaCache 的 ComfyUI 插件,用于加速图像、视频和音频扩散模型的推理过程,支持多种模型,并提供了简单的安装方法和推荐配置
openai-edge-tts 是一个开源免费的文本转语音 API,利用微软 Edge 的在线语音服务,能够生成多种语音选项和播放速度,用户无需付费即可体验高质量的文本转语音功能。
MusicGen模型训练器,旨在简化MusicGen和Audiocraft模型的训练过程,提供用户友好的界面和强大的功能,帮助用户轻松进行音频模型的训练和评估。
KaraFan利用人工智能的最佳音乐分离模型,能够高效地将歌曲中的人声分离出来,为卡拉OK爱好者提供更好的歌曲演唱体验,支持多种音乐格式,基于先进的人工智能技术。
一个让声音合成变得简单的接口项目,能帮用户轻松地将文字转换成各种语言和音色的语音,无论是常见的男女声还是特定语言的音色,都能轻松搞定,大大方便了需要语音合成的场景
Kokoro-FastAPI是一个基于Docker的FastAPI包裹,用于Kokoro-82M文本到语音模型的部署,支持NVIDIA GPU和CPU ONNX加速推理,具备自动分割和拼接功能,旨在提供高效、灵活的语音合成服务。
Anim-400K是一个大规模的视频配音数据集,包含了英语和日语两种语言的音视频剪辑,由超过425,000个对齐的剪辑(763小时)组成,涵盖了190多种不同的作品,涉及数百个主题和流派,适用于各类自动化配音任务。
通过语音与ChatGPT进行实时对话,让其用声音回应你,提供友好的交流体验。
Nendo core是为开发人员设计的AI音频工具套件,提供了一个易于使用的、轻量的框架,集成了音频处理和库管理的基本要素,拥有可扩展的插件架构和不断增长的AI音频插件生态系统,涵盖了广泛的用例。
AsrTools 是一款智能语音转文字工具,集成了剪映、快手、必剪的官方接口,支持高效的批量处理,提供用户友好的界面,无需 GPU,可以免费使用大厂的 ASR 服务,支持 SRT 和 TXT 格式的输出。
Hertz-dev是一个开源的基础模型,专门用于全双工生成会话性音频,使设备能够理解和参与对话,适用于各种设备,具有良好的扩展性和灵活性。
XTTS 是一个开源文本到语音(TTS)项目,旨在提供高质量的语音合成,支持多种语言,适用于不同的应用场景,如语音助手和有声书制作。
旨在构建一个强大、高性能的异步 Whisper 服务 API,支持高扩展性和分布式处理需求,适用于大规模自动语音识别场景,并集成了多平台爬虫,如抖音和 TikTok。
WhisperS2T是一个为Whisper模型优化的语音转文本处理管道,支持多个推理引擎,旨在提供高准确率和灵活配置选项的语音识别解决方案。
Loopy是一个能够利用长期运动依赖性生成自然运动模式的项目,仅通过音频生成生动的运动细节,支持多种视觉和音频风格,消除手动指定空间运动模板的需求,生成运动自适应的合成结果。
MiniCPM-o-2_6是Openbmb发布的一款新的混合模型,结合了多个先进模型,能够处理视觉、语音、视频流和OCR等多种任务,具有强大的功能和灵活的应用场景。
通过功能磁共振成像和生成人工智能模型重建人类大脑活动的声音,为感知体验的神经表征提供了见解。
Voice Changer 是一款实时语音转换客户端,支持Windows和Mac。它可以实时变声成其他人或者虚拟角色的音色,可以接入多种语音转换技术。
Stable Audio是一款通过A100 GPU技术,能够在8秒内渲染最长95秒的44.1kHz立体声音频的AI工具。它支持生成多种风格的音乐和音效,适用于音乐创作、游戏音效等多个领域。
OpenAI 新发布的 TTS 文字转语音,效果太棒了!支持多种语言的混合输入,提供多种声音选择,无需安装,在线免费使用。