阿里万相大模型宣布开源:8.2GB 显存就能跑,测
阿里云今日宣布旗下此次开源采用最宽松的 据介绍,14B 万相模型在指令遵循、复杂运动生成、物理建模、文字生成等方面表现突出,在评测集 VBench 中,
万相模型架构图
在算法设计上,万相基于主流 DiT 架构和线性噪声轨迹 Flow Matching 范式,研发了高效的因果 3D VAE、可扩展的预训练策略等。以 3D VAE 为例,为了高效支持任意长度的编码和解码,万相在 3D VAE 的因果卷积模块中实现了特征缓存机制,从而代替直接对长端到端的编解码过程,实现了无限长 1080P 的高效编解码。此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了 29% 的推理时内存占用。
万相团队的实验结果显示,在运动质量、
