WhisperX 是一个高效的语音识别工具,专门用于生成精确的字幕,支持多种音频格式,适合处理直播或录制的视频内容。
Whisper Web 是一个开源项目,允许用户在浏览器中运行基于机器学习的语音识别,无需后端服务器。它利用 WebGPU 技术实现加速,用户可以轻松进行语音转文本,并支持将识别结果导出为 TXT 和 JSON 文件格式,完全开箱即用。
whisper-cli-rs是一个使用Rust编写的命令行工具,基于whisper.cpp,支持多种音频格式,实现实时语音转文本,并允许用户自定义模型选择。
whisperfile是一个基于llamafile的语音识别服务器构建工具,支持多种操作系统和CPU架构,提供快速启动和音频转换功能,旨在简化语音识别服务器的搭建过程。
libsio是一个用于语音输入(STT)和输出(TTS)的运行时库,支持高效的语音识别和自然流畅的语音合成,具有良好的跨平台兼容性,易于集成到各种应用程序中。
WhisperX是一个强制时间对齐的时间戳精确版Whisper语音识别工具,能够高效地进行多语言的语音识别,并生成带有精确时间戳的文本转录,适用于各种音频处理场景。
macOS的命令行语音识别工具,让你的电脑能听懂你说的话,轻松转录音频文件或实时语音输入
"Whisper"是一个通用的语音识别工具,代表了自动转录和理解口语领域的重大进步。这个工具能够识别、转录并理解来自广泛来源的语音,使其在从个人助理到专业转录服务等各种应用中都非常有用。
实时AI变声工具