TangoFlux 是一款超快且忠实的文字转音频生成器,采用流匹配技术,能够快速将文本转换为高质量的音频。它具有惊人的效率和领先的性能,支持多种语言和音调,并提供易于集成的API,推动语音合成领域的发展。
Text-to-Sing项目允许用户输入歌词并通过上传旋律,让计算机按照该旋律演唱。该工具旨在简化音乐创作过程,使用户能够轻松生成歌曲。
MyHeyGen 是一个开源的AI工具,结合了语音合成和文本生成技术,能够实现逼真的语音效果和高效的内容创作,支持多种音频格式和语言,适用于个人创作及商业应用。
ebook2audiobook是一款开源工具,支持1100+种语言,能够将各类电子书一键转换为带章节的有声书,使用高质量的AI语音合成技术,并可克隆个人声音进行朗读,提供简单直观的网页界面和命令行模式,适合不同用户的需求。
音乐生成质量评估工具,用于比较生成音乐与真实音乐的相似度,帮助音乐生成模型的开发和优化
PTTS 网页演示 - Parallel TTS web demo based on Flask + Vue (Vuetify)。这是一个基于 Flask 和 Vue 的语音合成单网页演示项目,支持并行语音合成,提供现代化的用户界面,适用于浏览器的单页应用,易于使用和部署。
AudioCraft是一个音频类生成式AI项目,由MusicGen、AudioGen和EnCodec三种模型组成,支持多种音频处理任务,具有强大的音频生成能力,并且是一个开源项目。
该项目集成了Firecrawl的OpenAI实时API控制台,支持实时交互和音频管理,适用于浏览器和Node.js环境,用户可以通过声音引导AI代理实时爬取和浏览网站内容。
GAIA是一个可以从单个肖像图像和语音片段生成会说话的化身的人工智能项目。它支持通过文字提示来指导视频生成。
本地语音助手:无需联网即可在个人电脑上运行的语音助手,集成了语音识别和语音合成功能,打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验
专门为构建个性化普通话文本转语音(TTS)系统而设计的语音语料库,提供多样的语音样本,适合训练深度学习模型,支持多种语音合成技术的研究与应用,易于扩展和集成到现有的TTS框架中。
Mini-LLaVA是一款轻量级的多模态大语言模型,能够处理图像、文本和视频输入,实现高效且灵活的多模态数据处理。其设计旨在简化多模态应用的开发,提供了简约的实现和灵活的接口,方便用户进行快速开发和实验。
一个实时文本到语音转换库,通过识别句子片段来实现即时的听觉反馈,适用于需要即时音频响应的应用程序。
PDF2Audio是一个开源项目,旨在为用户提供一种从PDF文件生成音频内容的灵活解决方案,支持多种类型的音频内容生成,如播客、讲座、讨论以及短/长篇摘要,适用于教育、娱乐和信息传播场景。
用于标注语音数据集的实用脚本套件,旨在为基于语音的人工智能模型(如文本到语音引擎)开发过程中所需要的音频变换(或注释)提供简洁、干净的代码库
基于Node.js、Vue3、uniapp的AIGC平台,集成ChatGPT、Midjourney绘画、Suno音乐、视频服务等,支持私有化部署,适用于个人、团队和企业。该平台为用户提供了一站式的AI解决方案,能够满足不同用户的需求,包括创意写作、艺术创作和内容生成等。
kokoroTTS是一个文字生成语音模型,现已推出WASM版本,可以直接在浏览器中运行,支持高质量的语音生成,适配多种硬件,快速生成语音,方便用户在各种场景下使用。
Open-Lyrics是一个可以将音频转录为文本并翻译为LRC格式文件的工具,使用先进的whisper和gpt技术,支持多种语言,方便用户生成音乐字幕。
用Rust语言实现的超快文本转语音(TTS)引擎,只需一个命令就能合成高质量语音,支持多种语言,让语音合成变得简单快捷
GTSinger是一个全球性多技术歌唱语料库,提供真实的乐谱,适用于各种歌唱任务。
Unsupervised-TTS是由Cheng-I Jeff Lai开发的无监督语音合成系统,旨在利用无监督学习算法提高语音合成的质量和效率,同时支持多种语言,便于与现有系统集成。
whisper-cli-rs是一个使用Rust编写的命令行工具,基于whisper.cpp,支持多种音频格式,实现实时语音转文本,并允许用户自定义模型选择。
NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型,具有灵活的处理能力,可广泛应用于文本、语音、图像和视频等多种场景。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
用Groq、Whisper和Llama3从音频生成结构化笔记的工具,能快速整理讲座笔记,优化学习和复习过程
该项目能够根据上传的音乐文件生成对应的视觉图像,适用于视频制作和艺术创作,能够将音乐与视觉艺术结合,为创意项目提供灵感。
一个将PDF内容转换成自然对话形式的音频播客工具,支持输出为MP3文件,让你的知识和信息以声音的形式传播
一个强大高效、低延迟的语音转文本工具,支持状态监测和唤醒词触发。
Diarizers是一个用于微调pyannote说话人辨识模型的库,利用Hugging Face生态系统,提供了便捷的模型训练和评估功能。
为开发者提供的极简版音乐生成模型,简化了Meta的MusicGen模型代码,让开发者更容易上手和修改,实现高质量音乐创作。