HPT项目致力于通过结合多种预训练变换器来扩展自我感知与视觉学习的能力,旨在提高学习效率并适应多种复杂任务。
RL-VLM-F是一个结合视觉和语言的强化学习项目,通过利用基础模型的反馈进行学习,旨在优化多模态任务中的决策过程。
Lumina-mGPT是一个多模态自回归模型家族,专注于从文本描述生成高质量的图像,能够处理多种视觉和语言任务,具备强大的生成能力和灵活的应用场景。
MIMIC-IT:多模态上下文指令调优,展示了一个包含 280 万个多模态指令-响应对的数据集,以及从图像和视频中派生的 220 万个独特指令。