一个专注于编程任务的O1模型复现项目,结合强化学习(RL)和蒙特卡洛树搜索(MCTS)来增强模型的系统思维能力,包含测试用例生成器(TCG)和自弈强化学习两大核心组件,旨在生成更高效和逻辑性强的代码
一个用于增强LLM推理能力的Python库,提供可组合的推理算法框架。支持自定义评分函数的采样和重排序模式,内置蒙特卡洛树搜索等高级算法,通过vLLM保持高性能,特别适合研究人员快速实验和迭代新想法。
微软推出的数学推理项目,旨在展示小型语言模型(SLM)在数学推理方面可以通过自我演化的深度思考(Deep Thinking)过程达到与大型模型相当甚至更好的性能。