OpenOmni开源项目 – 开源多模态大语言模型

OpenOmni 是一个开源的多模态大语言模型，旨在解决多模态数据稀缺和计算资源有限的问题。它能够实时生成带有情感的语音，支持语音、文本、图像和视频的多模态理解，并提供两种实时情感语音生成模式（CTC模式和AR模式），以平衡速度与质量。其灵活的框架设计使其能够快速应用于多种下游任务，如语音导航和多角色对话。

OpenOmni的特点:

1. 支持语音、文本、图像和视频的多模态理解
2. 提供两种实时情感语音生成模式（CTC模式和AR模式），平衡速度与质量
3. 灵活的框架设计，可快速应用于多种下游任务，如语音导航和多角色对话

OpenOmni的功能:

1. 用于语音导航系统，提供实时情感语音反馈
2. 应用于多角色对话系统，生成带有情感的多模态交互
3. 集成到多模态数据理解任务中，提升模型的理解和生成能力

相关导航

Awesome-Multimodal-LLM开源项目 – 多模态大语言模型的阅读资源

该项目是一份多模态大语言模型相关论文和资源的阅读清单，旨在汇集、分类和整理最新的研究成果，帮助研究人员和开发者了解多模态LLM的进展和最佳实践。

Awesome Multimodal Large Language Models开源项目 – 多模态大语言模型的综合调研

该项目是对多模态大语言模型的全面调查，涵盖最新进展、模型比较和评估以及多种应用场景，信息更新频繁，确保时效性。

VCoder开源项目 – 用于多模态大语言模型的视觉编码器

VCoder是一个多功能视觉编码器，旨在提升多模态大语言模型的感知能力，支持图像推理和生成任务，能够识别和计算图像中的物体，同时提供分割和深度图等感知模式，并利用COCO数据集进行训练和评估。

NOpenEMMA开源项目 – 开源多模态自动驾驶框架

OpenEMMA 是一个基于 LLaVA 的多模态大语言模型的开源端到端自动驾驶框架，支持多模态数据处理，提供高度可扩展性和灵活性，适用于自动驾驶系统的开发、测试和研究。

Awesome-MLLM-Hallucination开源项目 – 多模态大语言模型幻觉研究资源

该项目是一个多模态大语言模型（MLLM）幻觉相关论文资源列表，汇集了关于MLLM中幻觉现象的研究论文，提供分类、标签和摘要，便于研究人员快速获取信息，并持续更新确保资源的时效性。

Awesome-Remote-Sensing-Multimodal-Large-Language-Model开源项目 – 多模态遥感大语言模型

该项目是一个集成多种遥感数据源的多模态大语言模型，旨在提升视觉与语言的理解能力，支持遥感数据的分析与应用。

MiniCPM-o开源项目 – 强大的多模态大语言模型

一款强大的多模态大语言模型，能在手机上实现视觉、语音和多模态直播的强大功能，让手机也能拥有类似GPT-4o的智能表现

MUG-U开源项目 – 多模态大语言模型

MUG-U是一个强大的多模态大语言模型（MLLM），支持文本、图像、视频等多种输入，能够帮助用户轻松完成复杂的多模态任务。它在多个基准测试中表现卓越，平均准确率高达71.4%，并提供简单易用的API接口，方便快速上手。

NExT-GPT开源项目 – 任意多模态大语言模型

NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型，具有灵活的处理能力，可广泛应用于文本、语音、图像和视频等多种场景。

OmniAlign-V开源项目 – 提升多模态大模型对齐能力

OmniAlign-V是一个专为多模态大语言模型（MLLMs）设计的项目，旨在通过提供高质量的数据集和优化方法，提升模型在符合人类偏好方面的对齐能力。项目包含20.5万高质量图像问答对，以及专为DPO优化的负样本数据集，帮助模型更好地学习和对齐。此外，项目还引入了MM-AlignBench基准测试，使用GPT-4o作为裁判，客观评估模型在对齐人类偏好方面的表现。

NHunyuanVideo-I2V开源项目 – 腾讯混元的图生视频模型

HunyuanVideo-I2V 是腾讯混元团队最新发布并开源的图像转视频生成框架，基于多模态大语言模型（MLLM），利用预训练的解码器结构模型作为文本编码器，增强对输入图像语义内容的理解能力，并将图像生成的语义标记与视频潜在标记相结合，以实现更全面的跨模态全注意力计算。该模型适用于多种类型的角色和场景，包括写实视频制作、动漫角色甚至 CGI 角色制作的生成。

NAwesome-Token-Merge-for-MLLMs开源项目 – 优化MLLM的Token处理效率

该项目是一个精选论文列表，专注于为多模态大语言模型（MLLM）提供高效的Token合并、减少、重采样和丢弃方法。通过整合多篇相关论文，帮助开发者和研究人员理解和实现高效的Token管理策略，从而优化多模态大语言模型的Token处理效率。