AI开源项目

Mini-Gemini-挖掘多模态视觉语言模型潜力

一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。

一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
Mini-Gemini的特点:
1. 支持多种规模的语言模型(从2B到34B)
2. 具备图像理解、推理和生成能力
3. 基于LLaVA框架构建,使用双视觉编码器
4. 提供低分辨率视觉嵌入和高分辨率候选
5. 通过补丁信息进行高分辨率区域和低分辨率视觉查询的补丁级别挖掘
6. 结合文本和图像实现综合理解和生成

Mini-Gemini的功能:
1. 在图像理解任务中使用
2. 进行多模态推理和生成
3. 应用于计算机视觉与自然语言处理的结合
4. 支持研究和开发新的视觉语言模型

相关推荐

暂无评论

暂无评论...