Latte是一种新的潜扩散Transformer模型,用于视频生成,能够从输入视频中提取时空token,并通过Transformer块建模潜空间中的视频分布。该模型在多个标准视频生成数据集上取得了最先进的性能,支持文本到视频生成任务,适用于多种复杂的时空视频生成需求。