OpenOmni 是一个开源的多模态大语言模型,旨在解决多模态数据稀缺和计算资源有限的问题。它能够实时生成带有情感的语音,支持语音、文本、图像和视频的多模态理解,并提供两种实时情感语音生成模式(CTC模式和AR模式),以平衡速度与质量。其灵活的框架设计使其能够快速应用于多种下游任务,如语音导航和多角色对话。