基于论文知识复现 Pi(Physical Intelligence)智能视觉行动模型的开源项目,主要功能是模拟人类如何通过视觉和语言理解来指导行动。
open-pi-zero的特点:
1. 实现了一个精简版的 Pi0 模型
2. 采用了类似 MoE 或 MoT 的架构设计
3. 包含预训练的 PaLiGemma 视觉语言模型(3B 参数,其中 2.291B 可微调)
4. 包含全新的动作专家模块(0.315B 参数)
open-pi-zero的功能:
1. 进行视觉语言理解与模拟行动
2. 微调预训练的视觉语言模型以适应特定任务
3. 测试和评估基于视觉和语言的智能行动模型
相关推荐
暂无评论...