sherpa-onnx是一个功能强大的框架,支持语音转文字、文字转语音和说话人识别等多种功能。它设计为轻量级,能够在低功耗设备上高效运行,且遵循MIT协议,便于开发者使用和集成。
Distil-Whisper是一个令人印象深刻的AI模型,相较于Whisper,它提供了更快的推理速度和更小的模型体积,速度提高了6倍,体积减少了49%,在分布外评估集上表现也具有竞争力。
本文介绍了一个名为DDSP-SVC 3.0的开源项目,它是一个可以替代低配SO-VITS-SVC的工具。使用该工具,可以用更低的显存和更短的时间训练出模型,生成AI音乐。尽管生成的音乐质量相对较低,但可以用于快速生成音乐。
M-AILABS语音数据集:免费提供用于语音识别和语音合成的大型语音数据集,旨在帮助企业和开发者更好地利用人工智能和机器学习技术。
聊天文本转语音工具,让语音合成更快速、支持声音克隆和移动部署,提升语音交互体验
TangoFlux 是一款超快且忠实的文字转音频生成器,采用流匹配技术,能够快速将文本转换为高质量的音频。它具有惊人的效率和领先的性能,支持多种语言和音调,并提供易于集成的API,推动语音合成领域的发展。
旨在构建一个强大、高性能的异步 Whisper 服务 API,支持高扩展性和分布式处理需求,适用于大规模自动语音识别场景,并集成了多平台爬虫,如抖音和 TikTok。
WhisperFusion是一个基于WhisperLive和WhisperSpeech构建的项目,结合了Mistral大语言模型,旨在实现极低延迟的AI对话效果,提供流畅的语音交互体验。
ABox是一款多功能的语音转换应用,旨在保护隐私,帮助声带受损的个人恢复自信,并让性别多样化的人士自由表达自己。
VoiceLingo是一款iOS应用,允许用户将自己的声音转换为多种语言的音频。用户只需录音并选择目标语言,应用便会生成相应的音频输出,方便进行语言学习和交流。
由transformers.js提供支持的浏览器里100%客户端运行的实时音频转录,支持多种语言,易于集成到网页应用中。
DevMind是一个集成各种AI能力的创意平台,支持聊天补全、图像生成、人脸交换、语音转换、吉祥物创建、魔法头像、二维码艺术、视觉AI、图像放大等功能,现阶段可免费使用。
Neuralgen.ai 是一个自动化视频翻译平台,可以将您的视频翻译成超过10种语言,提供超现实的语音和精确的口型同步。用户只需连接到NeuralGen.ai,上传视频,选择翻译语言和语音参数,然后启动自动翻译,享受高质量的翻译结果。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型