NBP是一种通过半自回归建模实现视频生成的创新方法。它将生成单元从单个token升级为块(如行或帧),大幅提升生成效率。块内采用双向注意力机制,使token能够捕捉更强大的空间依赖性。此外,NBP通过并行预测多个token,推理速度提升了11倍。