SoundHound是一款创新的语音驱动AI和音乐识别技术,彻底改变了用户与设备的互动方式,提供快速识别周围音乐的功能,深入了解艺术家作品,甚至可以通过唱歌或哼唱来找到你脑海中萦绕的旋律。
整合了Mistral大型语言模型的实时语音转文本系统,基于WhisperLive和WhisperSpeech,提供高性能和低延迟处理。
一款强大的多模态大语言模型,能在手机上实现视觉、语音和多模态直播的强大功能,让手机也能拥有类似GPT-4o的智能表现
Moshi是一个实时对话的语音文本基础模型,使用先进的流式神经音频编解码器Mimi,支持双向语音流处理,具有低延迟和高效率的特点。
阿里巴巴云计算推出的大型音频语言模型,能够接受各种音频信号输入,并根据语音指令进行音频分析或直接生成文本回复,为对话系统和音频处理任务提供强大支持。
结合 fast-whisper-large-v3, Yi-34B-Chat-AWQ 和 XTTS-v2 的语音聊天项目,推理显存占用 33G。该项目提供高效的语音识别和合成,支持多种语言与方言,确保低延迟的语音交互,适合多种应用场景。
Talk是一个基于whisper.cpp和llama.cpp的项目,旨在实现与计算机的直接语音对话。它整合了先进的语音识别和生成技术,支持自然语言处理,能够实时响应用户的语音指令,并提供用户友好的界面,方便易用。
AI实时变声工具