Unified Video Action Model 是一个专注于视频与动作建模的项目,旨在帮助机器人理解视频内容并预测后续动作。通过两阶段的训练方法,先进行视频生成,再进行动作预测,从而实现更优的效果。该项目支持多种模拟与真实机器人任务,涵盖了PushT、Libero10等数据集,并提供了Colab笔记本,方便用户快速上手体验。