simple_GRPO 是一个简单的 GRPO(Generative Reinforcement Learning for Policy Optimization)实现,旨在复现类似 r1 的大型语言模型(LLM)思维过程。该项目代码简洁,依赖极少,能够快速上手,并支持分离式参考模型,允许在不同GPU上运行以节省显存。训练过程仅需1小时,用户可快速观察到模型的“顿悟时刻”。
nanoGRPO是一个轻量的Group Relative Policy Optimization (GRPO) 实现,专为语言模型优化设计,提供高效的解决方案。它能够在资源有限的硬件环境中运行,仅需8GB显存即可适配RTX 4060显卡。通过独特的GRPO损失函数,nanoGRPO在120步训练内即可显著提升模型表现,适用于需要快速优化语言模型的场景。