智谱 AI 开源 CogVideoX-5B 生成模型,RTX 3060 显卡可

2024-08-28 10:09:18

  智谱 AI 开源了 CogVideoX-5B 生成模型,相比此前开源的 CogVideoX-2B,官方称其生成质量更高,官方表示CogVideoX 是一个大规模 DiT模型,用于文本生成任务,主要采用了以下技术:

  3D causal VAE:通过压缩数据到 latent space,并在时间维度上进行解码来实现高效的重建。

  专家 Transformer:将文本 embedding 和 embedding 相结合,使用 3D-RoPE 作为位置编码,采用专家自适应层归一化处理两个模态的数据,以及使用 3D 全注意力机制来进行时空联合建模。

  CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下:

  附相关链接:

  代码仓库:

  模型下载:

  论文链接:

下一篇:英特尔 Arrow Lake Halo 处理器现身海关数据库,定位
上一篇:Cerebras 推出全球最快AI推理解决方案,速度是英伟
返回顶部小火箭