来自清华团队开源的一个 AI 项目,通过强化学习技术训练出一个 7B 模型,在数学推理能力上超越 GPT-4o 以及 Llama-3.1 70B。
PRIME的特点:
1. 仅用 8 张显卡训练出高性能模型
2. 在数学推理能力上超越其他大型模型
3. 提出一种不依赖高质量数据的算法,显著提升模型推理能力
4. 获得开发者的广泛关注和讨论
PRIME的功能:
1. 用于模型训练,尤其在资源有限的情况下
2. 应用于需要数学推理能力的任务
3. 研究和开发新的强化学习算法
相关推荐
暂无评论...