ModelScope魔搭开源的ClearerVoice-Studio项目,提供语音增强、语音分离、目标说话人提取等功能,旨在提升语音处理的质量和效率。
这是一款AI降噪工具,帮助人们使他们的声音更清晰。只需一键点击,人们就可以为他们的视频获得专业的音效。它还提供了专业的AI音频处理解决方案,允许用户本能地调整声音/噪音比例。
bench.audio 是一个开源的语音代理评估基准,类似于 LMSYS 的 ELO 基准,旨在让两个不同的语音代理进行对话,并投票哪个表现更好。该项目还计划推出 GPT-4o,以进一步提升其功能和性能。
《人体运动扩散模型》的论文代码,旨在高效生成和编辑人体运动,支持多种运动风格和动作捕捉数据。
Lamini是一个为企业软件开发提供支持的AI驱动的LLM平台,通过生成性AI和机器学习,帮助开发者自动化工作流,简化软件开发过程,提高生产力。
AIxBlock是一个平台,使用户能够利用全球未使用的计算资源来产品化他们的AI模型,同时保持完全的隐私控制。用户可以在几分钟内自我托管此AI平台,实现无缝开发、微调和在本地部署AI。
基于 PyTorch 的音乐生成和文本到语音(TTS)系统的实现,该系统使用基于 LLaMA 的大型语言模型(LLMs),并支持在单个 RTX 4090 GPU 上少于 10 小时内训练音乐生成模型
Audio Enhancer通过先进的AI驱动降噪和音频增强功能,彻底改变了音频处理,旨在为内容创作者、教育工作者和专业人士简化提高音频质量的任务,使其变得更加高效和可及。无论是提高播客质量、清理视频音轨,还是完善音乐录音,Audio Enhancer都能在一次点击中提供所需的工具。
实时AI变声工具
stablediffusion api是一个强大的API,旨在让开发者专注于构建下一代AI产品,而无需担心GPU的维护。它提供了便捷的接口,支持用户生成和微调Dreambooth Stable Diffusion,极大地简化了图像生成的流程和技术门槛。
CrystalSound是一个创新的AI驱动工具,通过深度神经网络技术,提取嘈杂背景中的声音,确保清晰的音频质量,适用于各种虚拟交流场景。
Smol Vision是一个专注于视觉模型的压缩、优化与定制的方案集,旨在缩小模型尺寸、提高运行速度,并实现个性化定制。该项目支持多种视觉任务,并易于集成与使用,适合在资源有限的环境中应用。
Revocalize AI是一个专业级AI语音生成工具包,允许用户创建自定义AI声音或使用官方授权的AI语音模型,在几秒钟内生成超真实的声音。它利用专有的语音合成技术捕捉声音的独特谐波,将任何输入声音转变为另一种声音,类似于为声音使用Photoshop。
slowllama实现了在苹果M1/M2设备(如MacBook Air或Mac mini)上对Llama2和CodeLlama模型(包括7B/70B等规模)进行微调,且未采用量化优化。
Zenpai Assistant 是一款桌面AI助手,可以自动完成许多手动任务,如图像调整大小、将jpg文件转换为png文件、将文本转换为语音、从视频中提取音频等。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型