1890美元,就能从头训练一个还不错的12亿参数扩散模型

现阶段视觉生成模型训练成本高、工作量大,如 Stable Diffusion 2.1 需大量 GPU 小时。来自 Sony AI 等机构的研究者开发了一种低成本端到端的 pipeline,用于文本到图像扩散模型。作者考虑基于视觉 transformer 的潜在扩散模型进行文本到图像生成,通过在 transformer 输入层随机掩蔽部分 token 降低计算成本,但现有的掩蔽方法在高掩蔽率下会大幅降低性能。为此,作者提出延迟掩蔽策略,用轻量级 patch 混合器预处理后再传输到扩散 transformer,能在高掩蔽率下可靠训练,且比缩小模型规模效果好。

Previous:

Next:

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信