字节 Seed 开源统一多模态理解和生成模型 BAGEL

2025-06-03 19:25:44

  字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL 具有 70 亿个激活参数,并在大规模交错多模态数据上进行训练。此外,BAGEL 在经典的图像具体来看,BAGEL 基于大语言模型进行训练,具备基础的推理和对话能力,能够处理图像和文本的混合输入,并以混合格式输出。

  ▲混合输入-混合输出

  BAGEL 可生成较高质量、逼真的图像、或图文交错的内容。此外,还引入了长思维链 COT模式,模型在生成之前可先“思考”。

  ▲BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶

  基于交错的多模态数据预训练,BAGEL 自然地学会了保留

  ▲BAGEL 实现多种风格迁移

  此外,BAGEL 还具备世界模型的基础能力,可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务,并进行不同角度的旋转或视角切换。同时,BAGEL 还具备较强的泛化能力,不仅在各类真实场景中,还能在游戏、艺术作品、卡通动画等场景中实现导航。

  基于以上能力,BAGEL 还可通过一个统一的多模态接口,实现各项能力的复杂组合,进行多轮对话。

  ▲剪切-智能附 BAGEL 开源地址:

下一篇:Adobe 宣布推出 Photoshop 安卓版,测试期间可免费使
上一篇:100% 绿电:特斯拉上海储能超级工厂被曝将安装“
返回顶部小火箭