![](https://cdn.msbd123.com/ad/ad.png)
TinyZero是一个以不到30美元的成本,利用veRL强化学习训练框架,在qwen2.5模型基础上进行训练的项目,能够复现DeepSeek R1论文中的’Aha moment’,并提供完整实验日志和开源代码,方便复现和学习。
TinyZero的特点:
- 1. 仅需30美元即可体验大型模型的推理能力
- 2. 基于veRL强化学习训练框架
- 3. 3B基础模型通过强化学习自主发展推理能力
- 4. 在qwen2.5模型基础上进行训练
- 5. 复现DeepSeek R1论文中的关键时刻
- 6. 提供完整的实验日志和开源代码,方便复现和学习
TinyZero的功能:
- 1. 在小型设备上运行大型语言模型的推理任务
- 2. 利用强化学习进行自我验证和搜索能力的开发
- 3. 复现DeepSeek R1 Zero在倒计时和乘法任务中的表现
- 4. 使用veRL框架进行模型训练
- 5. 调整qwen2.5模型参数以优化结果
- 6. 进行实验以复现DeepSeek R1中的’Aha moment’
相关导航
暂无评论...