Moshi是一个实时对话的语音文本基础模型,使用先进的流式神经音频编解码器Mimi,支持双向语音流处理,具有低延迟和高效率的特点。
sherpa-ncnn 是一个使用下一代 Kaldi 和 ncnn 构建的实时语音识别系统,支持多种语言和方言,具备低延迟性能,适合各种实时应用场景。它提供灵活的模型部署选项,并兼容 Kaldi 的最新技术,能够满足开发者的多样化需求。