Moonshine开源项目 – 快速准确的自动语音识别系统

Moonshine是一款为边缘设备设计的自动语音识别模型，速度比Whisper快5倍，且保持相同的准确性，适用于实时和资源受限的应用场景，如现场转录和语音命令识别。它支持可变长度输入，具备低延迟和高效率，能够在本地设备上运行，无需联网，适合各种实时语音识别任务。

Moonshine的特点:

1. 处理短音频片段时比Whisper快五倍
2. 适合实时、设备上的应用程序
3. 在多个数据集上达到了更低的词错误率（WER）
4. 支持可变长度的输入，动态调整处理的数据量
5. 可以部署在本地设备，甚至是可穿戴设备上，实现断网运行
6. 采用基于Transformer的编码器-解码器架构

Moonshine的功能:

1. 现场转录
2. 语音命令识别
3. 实时数据处理
4. 适用于会议记录的自动化生成
5. 在移动设备上进行实时语音识别
6. 可以在演讲场合中进行即时文字记录

相关导航

SubTitles.Love官网 – 智能字幕编辑工具

SubTitles.Love 是一款基于人工智能的字幕编辑工具，旨在帮助用户为社交媒体视频添加字幕，从而增强观众互动。它提供了简单的编辑界面，具备自动语音识别功能，并支持超过10种语言。用户只需上传视频，系统将以95%的准确率自动生成字幕，用户可以调整字幕样式，并下载适合社交媒体平台的成品视频。

WAAS开源项目 – OpenAI Whisper的GUI与API平台

WAAS是一个平台，提供OpenAI的Whisper自动语音识别（ASR）系统的图形用户界面和API，用户可以通过直接访问API或使用提供的GUI接口进行音频文件的转录和管理。

SpeechFlow – Advanced Speech-to-Text API-强大的语音转文本API

SpeechFlow是一个强大的语音转文本API，能够以高精度将声音转换为文本，支持14种语言。它提供自动语音识别（ASR）功能，能够将语音翻译成文本。该API在线可用，并提供易于集成到应用程序中的接口。

Transformers.js开源项目 – 在浏览器中运行深度学习模型的库

Transformers.js是一个在浏览器中运行Transformers模型的库，支持多种流行的深度学习模型，如BERT、T5、GPT-2等。它适用于多种任务，包括文本分类、翻译、摘要和问答，同时还支持自动语音识别和图像分类功能。该库提供了零样本图像分类和图像到文本的能力，方便用户在浏览器环境中进行各种深度学习任务。

RealtimeSTT开源项目 – 强大高效的语音转文本工具

一个强大高效、低延迟的语音转文本工具，支持状态监测和唤醒词触发。