现阶段视觉生成模型训练成本高、工作量大,如 Stable Diffusion 2.1 需大量 GPU 小时。来自 Sony AI 等机构的研究者开发了一种低成本端到端的 pipeline,用于文本到图像扩散模型。作者考虑基于视觉 transformer 的潜在扩散模型进行文本到图像生成,通过在 transformer 输入层随机掩蔽部分 token 降低计算成本,但现有的掩蔽方法在高掩蔽率下会大幅降低性能。为此,作者提出延迟掩蔽策略,用轻量级 patch 混合器预处理后再传输到扩散 transformer,能在高掩蔽率下可靠训练,且比缩小模型规模效果好。