Meta-Transformer是一个用于多模态学习的统一框架,能够处理各种模态如自然语言、2D图像、3D点云、音频、视频、时间序列和表格数据。它采用冻结的编码器进行多模态感知,并且可以在没有配对的多模态训练数据的情况下进行训练,同时可学习的数据预处理器能够处理每个输入模态,生成共享的嵌入表示。