Transfusion是一种可以生成文本和图像的训练模型的统一方法,结合了语言建模和扩散的优势。它通过结合下一个Token预测与扩散,在混合模态序列上训练单个Transformer,提供了优于传统方法的扩展性,支持高达7B参数和2T多模态标记。