高效又高质量!Token-Shuffle 革新图像生成方式

2025-04-26 15:01:36

  科技媒体 marktechpost 昨日发布博文,报道称 Meta AI 创新推出 Token-Shuffle,目标解决自回归模型在生成高分辨率图像方面的扩展难题。

  注:自回归模型是一种用于时间序列分析的统计方法,主要用于预测数据序列中的未来值。该模型的核心思想是当前的值与过去的值之间存在线性关系,因此可以用变量自身的历史数据来预测当前或未来的值。

  在语言生成方面,自回归模型大放异彩,近年来也被广泛探索用于图像合成,然而在面对高分辨率图像时,AR 模型遭遇瓶颈。

  不同于文本生成仅需少量 token,图像合成中高分辨率往往需要数千个 token,计算成本随之暴增。这让许多基于 AR 的多模态模型只能处理低中分辨率图像,限制了其在精细图像生成中的应用。

  尽管扩散模型在高分辨率上表现强劲,但其复杂的采样过程和较慢的推理速度也存在局限。

  Meta AI 推出的 Token-Shuffle 方法直击 token 效率问题。它通过识别多模态大语言模型中这种 token 融合机制大幅降低了计算成本,在保持具体而言,Token-Shuffle 包含 token-shuffle 和 token-unshuffle 两个步骤。输入准备阶段,空间相邻 token 通过 MLP压缩为单个 token,减少 token 数量。

  以窗口大小 s 为例,token 数量可减少 s² 分之一,显著降低 Transformer 的计算量。此外,该方法还引入了针对自回归生成的 classifier-free guidance调度器,动态调整引导强度,优化文本-图像对齐效果。

  Token-Shuffle 在 GenAI-Bench 和 GenEval 两大基准测试中展现了强大实力。在 GenAI-Bench 上,基于 2.7B 参数的 LLaMA 模型,Token-Shuffle 在“困难”提示下取得 VQAScore 0.77,超越其他 AR 模型如 LlamaGen和扩散模型 LDM。

  在 GenEval 中,其综合得分为 0.62,为 AR 模型树立了新标杆。用户评估也显示,尽管在逻辑一致性上略逊于扩散模型,但 Token-Shuffle 在文本对齐、图像质量上优于 LlamaGen 和 Lumina-mGPT。

  附上参考地址

下一篇:前卡普空开发者:若《逆转裁判》当下发布,可
上一篇:探索 RISC-V 未来:Ubuntu 24.04 镜像适配香橙派 RV2
返回顶部小火箭