FIFO-Diffusion是一个无需额外训练即可生成长视频的框架,通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型,结合算法优化,实现了高效的视频生成和去噪,已在现有的文本到视频生成基线上展示出其有效性。
StreamingT2V 是一种自回归方法,用于生成具有平滑过渡的长视频,支持80、240、600、1200帧或更多帧的生成。该方法通过一致的块转换和长期记忆块,确保生成的视频在动态性和连贯性上的高质量表现。