现阶段视觉生成模型训练成本高、工作量大,如 Stable Diffusion 2.1 需大量 GPU 小时。来自 Sony AI 等机构的研究者开发了一种低成本端到端的 pipeline,用于文本到图像扩散模型。作者考虑基于视觉 transformer 的潜在扩散模型进行文本到图像生成,通过在 transformer 输入层随机掩蔽部分 token 降低计算成本,但现有的掩蔽方法在高掩蔽率下会大幅降低性能。为此,作者提出延迟掩蔽策略,用轻量级 patch 混合器预处理后再传输到扩散 transformer,能在高掩蔽率下可靠训练,且比缩小模型规模效果好。
1890美元,就能从头训练一个还不错的12亿参数扩散模型
Previous: 银牌组最高分,谷歌 DeepMind 捅破 AI 数学推理上限
Next: 关于大模型「越狱」的多种方式,有这些防御手段