WhisperLive是OpenAI的Whisper的近实时实现,通过语音活动检测(VAD)仅在检测到语音时发送音频数据到Whisper模型,从而减少数据传输并提高转录准确性。
april-asr是一个用C语言开发的语音转文本(STT)库,具备高效的语音识别算法和实时转录功能,支持多种语言,具有可扩展的架构,便于集成到其他项目中,适用于多种应用场景。
WhisperS2T是一个为Whisper模型优化的语音转文本处理管道,支持多个推理引擎,旨在提供高准确率和灵活配置选项的语音识别解决方案。
Hello Transcribe是一款私密安全的语音转文本应用,采用OpenAI Whisper技术,适用于iPhone、iPad和Mac。用户可以轻松转录语音笔记、音频文件、视频、播客,以及通过麦克风进行口述。
一个强大高效、低延迟的语音转文本工具,支持状态监测和唤醒词触发。
WhisperFusion是一个基于WhisperLive和WhisperSpeech构建的项目,结合了Mistral大语言模型,旨在实现极低延迟的AI对话效果,提供流畅的语音交互体验。
Akkadu是一个实时AI字幕工具,帮助用户以自己的语言轻松理解视频、网络研讨会、视频会议和直播,支持90多种语言,并兼容多种平台。
一个快速且高效的语音转文字(STT)模型,支持多语言自动识别和翻译功能。
一个实时文本到语音转换库,通过识别句子片段来实现即时的听觉反馈,适用于需要即时音频响应的应用程序。
Cartesia Sonic是一个极其快速的生成语音API,具有135毫秒的模型延迟。它可以帮助用户构建高质量、实时的语音体验,提供多样的声音库、即时语音克隆、语音混合和语音设计,支持速度和情感控制。
Superwhisper是一款基于AI的语音转文本应用,专为macOS设计。用户可以将语音转录为文本,支持100多种语言,处理完全在设备上进行,无需WiFi。
Wenet STT Python是一个基于WeNet的语音识别库,旨在提供高效、准确的语音转文本功能。它支持多种语言,能够实时处理语音输入,并允许用户自定义模型以满足特定需求,易于与现有Python项目集成。
PLAUD NOTE是一款由ChatGPT-4驱动的AI语音录音器,专为提高专业人士和学生的生产力而设计,能够简化录音、转录和音频内容摘要的过程。
WhisperX是一个强制时间对齐的时间戳精确版Whisper语音识别工具,能够高效地进行多语言的语音识别,并生成带有精确时间戳的文本转录,适用于各种音频处理场景。
Diart是一个优化方案的代码实践,构建在pyannote-audio模型之上,旨在实时识别不同的说话人,特别适用于实时音频流(如来自麦克风)的场景。
OpenChit是一款支持文本和语音的原生AI聊天客户端,具有文本转语音播放功能(支持Siri和Azure TTS)。用户可以通过键入或语音命令与AI进行互动,并通过文本转语音功能收听AI的回复。