Guide-GRPO项目旨在通过优化语言模型中的指令Token在推理链中,实现在消费级显卡上的内存高效训练(需24GB VRAM)。其核心价值在于通过引导词优化推理链条,提升模型的连贯性和准确性。该项目在初步实验中表现出色,具有广阔的应用前景。