Open-R1-Multimodel是基于Huggingface的Open-R1和deepseek-ai/DeepSeek-R1实现的多模式R1模型。它集成了Qwen2-VL系列、Aria-MoE等VLM transformers,并开源了首批8k专注于数学推理的多模态强化学习训练示例。数据由GPT4o创建,具有推理路径和可验证答案,基于Math360K和Geo170K数据集。