Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列,能够处理时长超过20分钟的视频,同时在文档理解方面表现出显著优势。该模型支持多模态输入,能够处理视频和文本数据,适用于多种应用场景。
该项目提出了一种通过静态和动态元素的解耦来进行视频蒸馏的方法,旨在从静态图像中提取视频信息,提升视频理解能力。
OmAgent是一个多模态智能体系统,专注于利用多模态大语言模型能力以及其他多模态算法来处理各种多模态任务。
北京大学的多模态图像视频识别项目,旨在将视觉信息融入语言特征空间,以推动大型视觉-语言模型的发展。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。