VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。
VITA的特点:
1. 端到端语音交互时延从约4秒缩短到了1.5秒
2. 语音识别WER(词错误率)从18.4%降到了7.5%
3. 支持多种视觉输入形式,如图片和视频
4. 实时语音交互能力
VITA的功能:
1. 通过图像或视频输入进行语音问答
2. 与用户进行自然语言对话
3. 进行实时语音识别和响应
相关推荐
暂无评论...
VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。
VITA的特点:
1. 端到端语音交互时延从约4秒缩短到了1.5秒
2. 语音识别WER(词错误率)从18.4%降到了7.5%
3. 支持多种视觉输入形式,如图片和视频
4. 实时语音交互能力
VITA的功能:
1. 通过图像或视频输入进行语音问答
2. 与用户进行自然语言对话
3. 进行实时语音识别和响应