OpenAI o1是一个新的大型语言模型,通过强化学习进行训练,旨在执行复杂的推理任务。o1在回答问题之前会进行思考,能够产生长而复杂的内在思维链,确保回答的准确性和深度。
TinyZero是一个以不到30美元的成本,利用veRL强化学习训练框架,在qwen2.5模型基础上进行训练的项目,能够复现DeepSeek R1论文中的'Aha moment',并提供完整实验日志和开源代码,方便复现和学习。
一个强化学习项目,旨在通过少量示例训练大型语言模型以进行数学推理和解决问题。该项目通过使用少量数据和简化的训练流程,使得AI推理训练更加高效,且小模型也能表现出强大的推理能力。
这是一个专注于应用于网络安全的强化学习资源的精心整理列表,包含研究论文、实用实现和相关工具,旨在帮助研究人员和开发者在这一领域获得最新的信息和技术支持。
H2O是一个基于强化学习的human-to-humanoid实时全身远程操作框架,旨在通过使用大型人体运动数据集进行可扩展的重定向和训练,使得用户只需一个RGB摄像头即可操作全尺寸的人形机器人,从而释放类人机器人的认知技能和适应性潜力。
该团队专注于金融领域的强化学习(RL)和大语言模型(LLM)的应用,提供数据收集和量化分析的工具和资源。
一个专注于编程任务的O1模型复现项目,结合强化学习(RL)和蒙特卡洛树搜索(MCTS)来增强模型的系统思维能力,包含测试用例生成器(TCG)和自弈强化学习两大核心组件,旨在生成更高效和逻辑性强的代码
为在强化学习(RL)智能体中嵌入和利用语言模型的能力,本文设计了一个以语言为核心推理工具的框架,探索了如何通过语言能力解决中的一系列挑战,包括高效探索、重用经验数据、调度技能和从观察中学习等。
RL-VLM-F是一个结合视觉和语言的强化学习项目,通过利用基础模型的反馈进行学习,旨在优化多模态任务中的决策过程。
Hora是一个在模拟器中训练强化学习策略,并将其直接部署到真实世界机械手的项目,完全不依赖视觉或触觉输入,旨在实现高效的机械手操作。
研究团队从学习搜索算法中得到启示,利用文本生成的关键特性,应用了强化学习和引导反馈。该算法在IMDB正面评论和文本生成任务上超越了默认的PPO基线,证实了与指导型语言大模型交互的优势。
RLAIF通过人工智能反馈扩展人类反馈的强化学习,表明可以在不依赖人类注释者的情况下产生与RLHF相当的改进。
这篇综述系统性地梳理了强化学习从价值驱动到模型思维的范式转变,探讨了强化学习的未来发展方向以及与大语言模型的结合。
Google 推出的 GameNGen,是第一款完全由神经网络模型驱动的游戏引擎,它能够以高质量方式在长轨迹上与复杂环境进行实时交互。
该项目研究了语言大模型如何理解情感并通过情感刺激进行强化,从而影响日常行为和互动。
K-Scale Sim是一个简单高效的库,专为在MJX和MuJoCo中训练仿人类运动而设计,支持强化学习代理的训练和评估,提供快速原型设计、环境规范和超参数调整功能,同时通过Weights & Biases跟踪和记录训练结果。
SimPO 通过将强化学习转变为有监督的成对损失,提供了一种新的方法来处理序列生成任务。
通过强化学习算法,自动玩Pokemon Red,并优化游戏策略,支持自定义训练和测试环境,同时提供数据可视化功能以分析训练结果。
nanoChatGPT是在nanoGPT基础上,结合了人类反馈的强化学习层,使用Gumbel-Softmax技巧以提高训练效率,适合进行小型模型的快速实验。
Meta 的应用强化学习团队带来了可投入生产的强化学习 AI 代理库,支持多种算法和高效的样本利用率,适用于不同的应用场景。
LISA(Learning Interpretable Skill Abstractions)旨在通过强化学习任务来学习可解释的技能抽象,从而提高模型的可解释性。
flowRL是一个利用强化学习优化用户体验的UI个性化平台。通过集成我们的AI模型,您可以根据用户交互自动调整界面,以最大化您选择的目标指标。