EfficientViT-高效视觉基础模型,专注图像生成
EfficientViT是由麻省理工学院Han Lab开发的高效视觉基础模型,旨在实现高分辨率图像生成和感知。该模型支持高达4096 × 4096分辨率的图像生成,并采用深度压缩自动编码器,实现高达32倍的图像压缩。此外,EfficientViT使用线性注意力替代原始注意力,提高在高分辨率下的效率,并结合现代仅解码器的小型LLM作为文本编码器,增强图像与文本的对齐。其高效的训练和采样机制能够减少采样步骤,使得在性能较低的硬件上也能快速生成高质量图像。