Self-rewarding-reasoning-LLM开源项目 – 自我奖励推理的语言模型

该项目旨在训练一种能够自我奖励推理的大型语言模型，使模型在推理过程中能够自主评估输出的正确性，而无需依赖外部反馈。通过结合强化学习技术，模型能够显著提升推理能力和自我修正能力，最终准确率提升最高可达14.2%。

相关导航

katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具，提供超过30个标准化数据集，并支持多种基于循环的离线强化学习基线模型，旨在促进研究和开发中的基准测试。

K-Scale Sim是一个简单高效的库，专为在MJX和MuJoCo中训练仿人类运动而设计，支持强化学习代理的训练和评估，提供快速原型设计、环境规范和超参数调整功能，同时通过Weights & Biases跟踪和记录训练结果。

SimPO 通过将强化学习转变为有监督的成对损失，提供了一种新的方法来处理序列生成任务。

gym-aloha是一个专为ALOHA环境设计的Gymnasium工具包，旨在提高机器人学习和训练的效率和趣味性。它提供了丰富的功能，支持多种任务模式和观测数据，特别适合基于强化学习的机器人训练。

Flashbax 是一个专为与 JAX 范例兼容而设计的库，旨在简化强化学习 (RL) 背景下的体验重放缓冲区的使用。它允许在完全编译的函数和训练循环中轻松利用这些缓冲区，从而加速强化学习过程并简化缓冲区管理。

GenRL是一个多模态基础世界模型，旨在为通用具身智能体提供支持。它能够将语言和视频提示嵌入到具身领域，通过解码模型的潜在状态序列来可视化预期行为，进而训练智能体执行任务。该项目适用于强化学习和多模态任务的研究，是开发具身智能体的基础模型。

中文Mixtral混合专家大模型，基于Mistral.ai发布的Mixtral模型，经过中文增量训练和指令精调，支持长文本处理与多种应用框架。

Hora是一个在模拟器中训练强化学习策略，并将其直接部署到真实世界机械手的项目，完全不依赖视觉或触觉输入，旨在实现高效的机械手操作。

TRIL是一个模块化的强化学习（RL）和模仿学习（IL）算法开发库，基于Hugging Face开源的transformers、accelerate和peft等库，直接支持预训练语言模型并支持分布式计算。它提供了多种算法和任务支持，适用于广泛的机器学习应用场景。

RLAIF通过人工智能反馈扩展人类反馈的强化学习，表明可以在不依赖人类注释者的情况下产生与RLHF相当的改进。

CivRealm是一个基于开源游戏Freeciv-web的学习和推理环境，提供了基于强化学习和语言模型的决策智能体接口，以及训练和评估工具和基线模型，旨在成为复杂环境中学习和推理代理的测试平台。

H2O是一个基于强化学习的human-to-humanoid实时全身远程操作框架，旨在通过使用大型人体运动数据集进行可扩展的重定向和训练，使得用户只需一个RGB摄像头即可操作全尺寸的人形机器人，从而释放类人机器人的认知技能和适应性潜力。

通过强化学习算法，自动玩Pokemon Red，并优化游戏策略，支持自定义训练和测试环境，同时提供数据可视化功能以分析训练结果。

critic-rl是一个通过强化学习教语言模型学会批判的项目，旨在让AI模型在无人监督下自我提升。该项目显著提升了语言模型在代码生成等任务中的表现，并具有模型无关性，适用于多种模型和任务。

TinyZero是一个以不到30美元的成本，利用veRL强化学习训练框架，在qwen2.5模型基础上进行训练的项目，能够复现DeepSeek R1论文中的'Aha moment'，并提供完整实验日志和开源代码，方便复现和学习。

暂无评论...