Merlin是一种由和支持的新型MLLM,展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM(MLLMs)中,以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练(FPT)和预见性指令调优(FIT)技术。