小米大模型团队提出对角蛇形自回归图像生成方

2025-04-18 18:32:59

  小米大模型团队刚刚宣布提出了一种具有方向感知的对角蛇形扫描自回归图像生成框架,有效地确保相邻索引的 token 在空间上紧密相邻。

  相对于传统的逐行生成方式,它可以沿着图像的对角线、像蛇一样灵活地生成每个像素,比传统方法更自然,也更接近人类绘画时的直觉。

  小米大模型团队表示,DAR在 256×256 的 ImageNet 基准测试中取得了 1.37 的 FID 分数,刷新了当前同类技术的最好成绩。

  小米官方表示将进一步支持更灵活的多种分辨率图像生成。鉴于本方法与 LLM 的训练和推理方式高度兼容,小米大模型团队还将持续探索更加统一的多模态理解与生成技术方案。

  目前,相关的论文、训练代码、模型权重已经开源,附官方地址:

  训练代码:模型参数:论文 arxiv 地址:

下一篇:NFC 诈骗新套路曝光,小心钱包被掏空
上一篇:我国重点工业互联网平台工业设备连接数超 1 亿
返回顶部小火箭