VIMA是一款连接了机械臂的语言模型(LLM),能够接收多模态的指令,支持文字、图片、视频等输入形式。该系统能够逐步感知环境并采取实际动作,支持多模式提示,使任务描述简单灵活,统一多种任务,如视觉目标达到、视频演示模仿、学习新概念和满足安全限制。作为一个开源项目,VIMA提供了代码、预训练模型、数据集和物理模拟基准,无需付费或填写表格,便于用户使用和开发。
VIMA的特点:
1. 支持多模态指令,包括文字、图片和视频
2. 能够逐步感知环境,采取实际动作
3. 根据视觉概念进行操作和学习
4. 开源,包括代码、预训练模型、数据集和物理模拟基准
5. 无付费墙,无需填写表格
VIMA的功能:
1. 通过文字指令让机器人执行任务,例如'把桌子布置成<图片>的样子'
2. 让机器人模仿视频中的动作,例如'模仿这个<视频>的动作'
3. 在上下文中教给机器人新的视觉概念,例如'这是一个wug<图片>,这是一个blicket<图片>,现在把红色的wug放在绿色的blicket上'
4. 使用文本提示进行机械手臂控制
5. 通过图像识别任务来引导机械手臂
6. 结合多模态信息进行实时决策
相关推荐
暂无评论...