智源发布原生多模态世界模型 Emu3，宣称实现图像

2024-10-22 01:47:16

　　智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、三种模态数据的理解和生成。官方宣称在图像生成任务中，基于人类偏好评测，Emu3 优于 SD-1.5 与 SDXL 模型。在据介绍，Emu3 提供了一个强大的

　　▲Emu3 生成的图像

　　Emu3 研究结果证明，下一个 token 预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身，能在大规模训练和推理中释放巨大的潜力。

　　目前 Emu3 已开源了关键技术和模型，附链接如下：