强化学习 | AI-magic

NOpenAI o1-通过强化学习进行复杂推理的新模型

OpenAI o1是一个新的大型语言模型，通过强化学习进行训练，旨在执行复杂的推理任务。o1在回答问题之前会进行思考，能够产生长而复杂的内在思维链，确保回答的准确性和深度。

0

复杂推理聊天机器人自然语言处理强化学习

NTinyZero-重现大型语言模型自我进化

TinyZero是一个以不到30美元的成本，利用veRL强化学习训练框架，在qwen2.5模型基础上进行训练的项目，能够复现DeepSeek R1论文中的'Aha moment'，并提供完整实验日志和开源代码，方便复现和学习。

0

大型语言模型实验日志开源项目强化学习

NsimpleRL-reason-高效强化学习推理训练

一个强化学习项目，旨在通过少量示例训练大型语言模型以进行数学推理和解决问题。该项目通过使用少量数据和简化的训练流程，使得AI推理训练更加高效，且小模型也能表现出强大的推理能力。

0

数学推理高效训练强化学习

Awesome Reinforcement Learning for Cyber Security-强化学习在网络安全中的应用资源汇总

这是一个专注于应用于网络安全的强化学习资源的精心整理列表，包含研究论文、实用实现和相关工具，旨在帮助研究人员和开发者在这一领域获得最新的信息和技术支持。

0

3D打印解决方案网络安全3D数字人类建模POV-Ray对象转换工具

H2O (Human2HumanOid)-基于强化学习的人机远程操作框架

H2O是一个基于强化学习的human-to-humanoid实时全身远程操作框架，旨在通过使用大型人体运动数据集进行可扩展的重定向和训练，使得用户只需一个RGB摄像头即可操作全尺寸的人形机器人，从而释放类人机器人的认知技能和适应性潜力。

0

基于大语言模型的工作流管理强化学习持续学习

AI4Finance-金融领域的强化学习与大语言模型应用

该团队专注于金融领域的强化学习（RL）和大语言模型（LLM）的应用，提供数据收集和量化分析的工具和资源。

0

大语言模型金融分析工具开源大语言模型评估强化学习

O1-CODER-专注编程任务的模型复现项目

一个专注于编程任务的O1模型复现项目，结合强化学习(RL)和蒙特卡洛树搜索(MCTS)来增强模型的系统思维能力，包含测试用例生成器(TCG)和自弈强化学习两大核心组件，旨在生成更高效和逻辑性强的代码

0

AI特性管理工具终端配置生成器编码助手开源提示工程平台

基础模型统一智能体研究-基于语言模型的智能体研究

为在强化学习（RL）智能体中嵌入和利用语言模型的能力，本文设计了一个以语言为核心推理工具的框架，探索了如何通过语言能力解决中的一系列挑战，包括高效探索、重用经验数据、调度技能和从观察中学习等。

0

强化学习自我纠错研究语言能力应用

RL-VLM-F-视觉语言基础模型反馈的强化学习

RL-VLM-F是一个结合视觉和语言的强化学习项目，通过利用基础模型的反馈进行学习，旨在优化多模态任务中的决策过程。

0

视觉语言模型强化学习条件扩散，图像生成，生成模型性能提升

Hora-在模拟器中训练RL策略并部署于机械手

Hora是一个在模拟器中训练强化学习策略，并将其直接部署到真实世界机械手的项目，完全不依赖视觉或触觉输入，旨在实现高效的机械手操作。

0

静态博客在线AI艺术生成器强化学习

Learning to Generate Better Than Your LLM-应用强化学习提升文本生成质量

研究团队从学习搜索算法中得到启示，利用文本生成的关键特性，应用了强化学习和引导反馈。该算法在IMDB正面评论和文本生成任务上超越了默认的PPO基线，证实了与指导型语言大模型交互的优势。

0

IMDB数据集LLaMA 65B强化学习文本生成

RLAIF-增强人类反馈的强化学习

RLAIF通过人工智能反馈扩展人类反馈的强化学习，表明可以在不依赖人类注释者的情况下产生与RLHF相当的改进。

0

IPTV播放器强化学习输入法工具

Reinforcement Learning: An Overview-系统性梳理强化学习的发展与未来

这篇综述系统性地梳理了强化学习从价值驱动到模型思维的范式转变，探讨了强化学习的未来发展方向以及与大语言模型的结合。

0

3D物体检测多模态学习框架强化学习机器学习

GameNGen-由神经网络驱动的高质量游戏引擎

Google 推出的 GameNGen，是第一款完全由神经网络模型驱动的游戏引擎，它能够以高质量方式在长轨迹上与复杂环境进行实时交互。

0

Mac文本编辑器互动体验强化学习

语言大模型的情感理解与强化-提升模型情感理解与互动能力

该项目研究了语言大模型如何理解情感并通过情感刺激进行强化，从而影响日常行为和互动。

0

建筑设计强化学习强化学习示例

K-Scale Sim-用于训练仿人行走的高效库

K-Scale Sim是一个简单高效的库，专为在MJX和MuJoCo中训练仿人类运动而设计，支持强化学习代理的训练和评估，提供快速原型设计、环境规范和超参数调整功能，同时通过Weights & Biases跟踪和记录训练结果。

0

Markdown生成工具强化学习

SimPO-一种新的序列生成任务处理方法

SimPO 通过将强化学习转变为有监督的成对损失，提供了一种新的方法来处理序列生成任务。

0

自然语言处理NLP工具库强化学习

Pokemon Red RL-使用强化学习玩Pokemon Red

通过强化学习算法，自动玩Pokemon Red，并优化游戏策略，支持自定义训练和测试环境，同时提供数据可视化功能以分析训练结果。

0

图像分割加速工具开源代码大模型强化学习

nanoChatGPT-基于nanoGPT的强化学习模型

nanoChatGPT是在nanoGPT基础上，结合了人类反馈的强化学习层，使用Gumbel-Softmax技巧以提高训练效率，适合进行小型模型的快速实验。

0

Go语言缓存自然语言处理强化学习

Pearl-可投入生产的强化学习AI代理库

Meta 的应用强化学习团队带来了可投入生产的强化学习 AI 代理库，支持多种算法和高效的样本利用率，适用于不同的应用场景。

0

高效训练推理StableStudio插件强化学习自然语言到代码转换工具

LISA-学习可解释的技能抽象

LISA（Learning Interpretable Skill Abstractions）旨在通过强化学习任务来学习可解释的技能抽象，从而提高模型的可解释性。

0

学术论文导航开源动画项目强化学习

flowRL-智能化用户界面个性化平台

flowRL是一个利用强化学习优化用户体验的UI个性化平台。通过集成我们的AI模型，您可以根据用户交互自动调整界面，以最大化您选择的目标指标。

0

AI集成在线文档管理强化学习