april-asr是一个用C语言开发的语音转文本(STT)库,具备高效的语音识别算法和实时转录功能,支持多种语言,具有可扩展的架构,便于集成到其他项目中,适用于多种应用场景。
WhisperLive是OpenAI的Whisper的近实时实现,通过语音活动检测(VAD)仅在检测到语音时发送音频数据到Whisper模型,从而减少数据传输并提高转录准确性。
Transcriber是一个可负担的在线转录服务,用户可以通过网页界面和API创建账户并开始转录,同时还支持翻译转录内容。
一个快速且高效的语音转文字(STT)模型,支持多语言自动识别和翻译功能。
InfraVisN AI利用可扩展的神经网络技术,重新定义基础设施管理,确保精确的缺陷检测和维护效率。该平台专为增长而设计,可以适应不断变化的需求,为智能和可扩展的检查设定了新的标准。
openai-edge-tts 是一个开源免费的文本转语音 API,利用微软 Edge 的在线语音服务,能够生成多种语音选项和播放速度,用户无需付费即可体验高质量的文本转语音功能。
Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案,支持Linux和Windows系统,能够满足多种应用需求。
Voice AI Note是一款实时语音转录应用,帮助用户轻松记录会议笔记和讲座总结,提供隐私优先的服务。用户只需说话,应用便会实时显示转录文本,方便编辑和重写。
整合了Mistral大型语言模型的实时语音转文本系统,基于WhisperLive和WhisperSpeech,提供高性能和低延迟处理。
Descript是一个创新工具,改变了视频和播客的创作方式,提供简便的编辑、转录和分享功能,适合各类创作者。
CoWin Copilot®️通过结合人工智能和人类智慧,帮助用户在各种面试和会议中表现出色。它提供实时语音转文本(STT)服务,支持编码,并提供免费的简历生成,旨在帮助候选人在面试中脱颖而出。
STT是一个经过实战验证的深度学习工具包,专注于语音转文本技术,适用于研究和生产环境。
用于标注语音数据集的实用脚本套件,旨在为基于语音的人工智能模型(如文本到语音引擎)开发过程中所需要的音频变换(或注释)提供简洁、干净的代码库
SteosVoice(前称CyberVoice)是一个先进的语音合成平台,利用人工智能创造超现实、高质量的声音。它为内容创作者提供广泛的功能和能力,包括用于视频、游戏和修改的文本转语音(TTS)服务。作为人工智能的声音工具,SteosVoice致力于提供全面的语音合成解决方案。
OpenAI的Whisper是一个通用的语音识别模型,支持多种语言,包括粤语,具备语音识别、翻译及语音活动检测等功能,其性能与收费产品相当,并可在本地部署,降低云服务成本。
AI Transcribe是一款提供离线AI驱动的转录服务的应用,用户可以在没有网络连接的情况下完全功能地进行音频转录。
echowin 是一个专为企业设计的 AI 电话平台,能够自动接听电话、预筛选来电者并收集信息。它提供 24/7 的可用性、无代码场景流程构建器和实时通话监控功能。用户只需连接新号码或将现有号码转接到 echowin,配置通话流程后,AI 代理即可处理来电,用户还可以监控通话、访问实时转录等。
这是一个专为边缘设备设计的Transformer模型推理库,旨在实现低成本、低能耗的处理。它能够以30倍的实时速度运行tiny.en Whisper模型进行语音转录,相较于最知名的实现速度快2倍,非常适合在资源受限的环境中使用。