PushT环境:基于gymnasium的仿真环境,用于训练智能体将特定形状的块推至目标区域,支持多种观察空间和连续动作空间
LISA(Learning Interpretable Skill Abstractions)旨在通过强化学习任务来学习可解释的技能抽象,从而提高模型的可解释性。
CivRealm是一个基于开源游戏Freeciv-web的学习和推理环境,提供了基于强化学习和语言模型的决策智能体接口,以及训练和评估工具和基线模型,旨在成为复杂环境中学习和推理代理的测试平台。
一种将人类语言转化为机器人技能合成奖励的方法,通过理解任务描述来训练机器人执行相应的技能。
Gigastep是一个高效的多智能体强化学习框架,能够每秒处理高达10亿步的训练,支持灵活的配置选项,并且易于与现有的强化学习算法集成。
Eureka是一个程序,能够自动生成算法来训练机器人,使它们能够更快地学习复杂的技能。生成的奖励程序在超过80%的任务上表现优于由专家编写的人工程序。
本课程讲述量化基础知识,旨在帮助开发人员压缩模型以便在消费者硬件上运行。
ProjectMaster 是一个专业的项目管理助手,提供逐步指导、实时进度跟踪和针对团队及个人项目的量身定制建议,旨在提升生产力和无缝实现目标。
GPTs Inventor是一个平台,提供从GPT商店中筛选出的最流行和有效的提示模板。这些模板经过精心挑选,确保用户可以访问到最热门和成功的提示,帮助提高创造力和效率。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型