VIMA是一款连接了机械臂的语言模型(LLM),能够接收多模态的指令,支持文字、图片、视频等输入形式。该系统能够逐步感知环境并采取实际动作,支持多模式提示,使任务描述简单灵活,统一多种任务,如视觉目标达到、视频演示模仿、学习新概念和满足安全限制。作为一个开源项目,VIMA提供了代码、预训练模型、数据集和物理模拟基准,无需付费或填写表格,便于用户使用和开发。
MuJoCo系统辨识助手是一个专注于已知模型结构的机械系统的实用工具,利用Levenberg-Marquardt非线性最小二乘法等先进技术,帮助用户高效估计结构化模型中的参数,从而简化机器人系统的辨识过程。
MuJoCo Dexterity Suite(alpha版)是一款用于灵巧多指手部操作的软件和任务,基于MuJoCo物理引擎实现逼真的模拟。
EgoMimic是一个基于第一人称视角的模仿学习框架,专为机器人技能学习而设计。它支持处理来自人类Aria眼镜的数据以及机器人远程操作的数据,提供了完整的数据处理、训练和部署流程,使得机器人可以高效地学习和执行各种任务。
SimpleAutomation是一个开源机器人自动化项目,旨在简化重复性任务的自动化过程,提供了一系列基于LeRobot仓库的辅助脚本,支持多模型联动以解决复杂的机器人任务。
Multimodal-Open-O1是一款本地运行的推理模型增强工具,旨在通过一种新的提示式方法提高本地推理模型的准确性,能够在本地环境中创建类似OpenAI-o1的推理链,支持多模态输入,适用于各种任务的推理需求。
UI-Act 是一个基于 Transformer 模型的系统,旨在通过图形用户界面与计算机进行自然交互。其设计目的是为了无缝集成到人机工作流中,模型能够利用专家的人工演示进行训练,从而提升操作的自动化与智能化水平。
一种快速模仿学习工具,通过图扩散技术实现即时策略生成,帮助机器人快速学习新任务