谷歌 Fluid 颠覆共识,AI 文生图领域自回归模型超
科技媒体 The Decoder 昨日发布博文,报道称谷歌 DeepMind 团队携手麻省理工学院,推出了全新的“Fluid”模型,在规模达到 105 亿参数时候,能取得最佳的文生图效果。
目前在文生图领域,行业内的一个共识简要介绍下这两种模型:
谷歌 DeepMind 和 MIT 团队通过深入研究,发现了使用连续 tokens和采用随机生成顺序两个关键设计因素,显著提高了自回归模型的性能和可扩展性。
团队表示在离散 tokens 为每个图像区域分配一个来自有限词汇的代码,这会导致信息丢失,而连续 tokens 可以更精确地图像信息存储,减少信息丢失。这让模型能够更好地重建图像,提高此外大多数自回归模型以固定顺序生成图像,而 Fluid 采用随机生成顺序,让模型能够在每一步预测任意位置的多个像素,这种方法在理解整体图像结构时表现更为出色。
Fluid 模型结合了连续标记和随机生成顺序后,当其规模扩大到 105 亿参数时,Fluid 在重要基准测试中超越了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。
与 Parti 相比,Fluid 显示出显著的改进:拥有 200 亿参数的 Parti 在 MS-COCO 上达到了 7.23 的 FID 分数,而仅有 3.69 亿参数的小型 Fluid 模型却达到了相同的分数。