Search-R1 是一个基于 veRL 的高效、可扩展的强化学习(RL)训练框架,专门用于训练推理和搜索引擎调用交错的大型语言模型(LLM)。它通过规则化奖励机制,使基础 LLM 能够自主发展推理和调用搜索引擎的能力,并提供详细的安装指南和快速入门教程,支持使用自定义数据集和搜索引擎。