智源发布原生多模态世界模型 Emu3,宣称实现图像

2024-10-22 01:47:16

  智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、三种模态数据的理解和生成。官方宣称在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在据介绍,Emu3 提供了一个强大的

  ▲Emu3 生成的图像

  Emu3 研究结果证明,下一个 token 预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身,能在大规模训练和推理中释放巨大的潜力。

  目前 Emu3 已开源了关键技术和模型,附链接如下:

下一篇:苹果 iOS 18.1 RC 发布
上一篇:顺丰与中国供销集团签订战略合作框架协议,将
返回顶部小火箭