Wenet STT Python是一个基于WeNet的语音识别库,旨在提供高效、准确的语音转文本功能。它支持多种语言,能够实时处理语音输入,并允许用户自定义模型以满足特定需求,易于与现有Python项目集成。
AudioCraft是一个基于深度学习的音频处理与生成库,旨在提供先进的音频压缩、生成和实验功能。
So-vits-svc(也称Sovits)是基于VITS、soft-vc、VISinger2等一系列项目开发的一款开源免费AI语音转换软件。很多AI翻唱就是用Sovits训练的。
RealtimeSTT_LLM_TTS是一个结合流式大型语言模型和GPT-SOVITS的工具,支持实时语音转文字和语音合成,能够通过网页实现跨网络服务调用,方便用户在不同场景中进行高效的语音交互。
VOMO是一个AI驱动的工具,允许用户将语音转换为有序的书面笔记,并轻松将其转换为幻灯片、表格、会议记录等多种格式。只需对着应用程序或网页界面说话,AI技术即可实时转录您的语音,帮助用户提高工作效率和创造力,减少输入时间。
WhisperLive是OpenAI的Whisper的近实时实现,通过语音活动检测(VAD)仅在检测到语音时发送音频数据到Whisper模型,从而减少数据传输并提高转录准确性。
Anywrite 2.0是一个无干扰的AI助手,旨在提升内容创作工作流程。它支持文本生成、摘要、语法纠正和改写,同时还提供图像生成与编辑、语音转文本和文本转语音的功能。
这是一个在线文本转语音服务,用户可以输入文本并选择喜欢的声音进行转换。适用于创建有声书、帮助视障人士、语言学习和提升网站及应用的可访问性。
一个精心挑选的人工智能工具集合,涵盖文本、图像、音频和视频等多个领域,定期更新以包含最新的AI技术进展。
Tunk是一个高效的AI解决方案,可以将语音转换为文本,广泛应用于教育、医疗、金融、法律等领域。它提供了高准确性和无缝的沟通体验,帮助用户提升工作和学习效率。
DeepSeek-R1-Sistill是量化版本的音频处理工具,旨在适应各种计算环境,能够高效地进行声音处理及分析。