字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

在生成式模型的发展中,图像Tokenization扮演着关键角色,如Diffusion依赖的VAE或Transformer依赖的VQGAN。这些Tokenizers将图像编码为更紧凑的隐空间,提高生成高分辨率图像的效率。然而,现有Tokenizer将图像映射为降采样后的2D矩阵,限制了token与图像的映射关系,难以有效利用图像中的冗余信息。为解决这一问题,字节跳动豆包大模型团队和慕尼黑工业大学提出了一种全新的1D图像Tokenizer:TiTok。TiTok打破2D Tokenizer的设计局限,将图片压缩为紧凑的Token序列。对于256 x 256分辨率的图片,TiTok仅需32个Token即可表达,对于512 x 512分辨率的图片,则需要64个Token。在ImageNet图像生成任务上,TiTok作为Tokenizer的生成器在生成质量和速度上均有显著提升。TiTok的结构简单,包含编码器和解码器,通过ViT实现。研究者发现,TiTok在有限的Token下可以重建出质量更好的图像,并且使用更少的Token表示图片时,Tokenizer会学到更强的语义信息。TiTok在ImageNet-1k的256 x 256和512 x 512分辨率上与其他方法进行了比较,取得了超过Diffusion Models的生成质量和显著快于其他方法的生成速度。豆包大模型团队成立于2023年,致力于开发先进的AI大模型技术,为科技和社会发展作出贡献。

Previous:

Next:

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信