字节 Seed 开源统一多模态理解和生成模型 BAGEL

2025-06-03 19:25:44

　　字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL 具有 70 亿个激活参数，并在大规模交错多模态数据上进行训练。此外，BAGEL 在经典的图像具体来看，BAGEL 基于大语言模型进行训练，具备基础的推理和对话能力，能够处理图像和文本的混合输入，并以混合格式输出。

　　▲混合输入-混合输出

　　BAGEL 可生成较高质量、逼真的图像、或图文交错的内容。此外，还引入了长思维链 COT模式，模型在生成之前可先“思考”。

　　▲BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶

　　基于交错的多模态数据预训练，BAGEL 自然地学会了保留

　　▲BAGEL 实现多种风格迁移

　　此外，BAGEL 还具备世界模型的基础能力，可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务，并进行不同角度的旋转或视角切换。同时，BAGEL 还具备较强的泛化能力，不仅在各类真实场景中，还能在游戏、艺术作品、卡通动画等场景中实现导航。

　　基于以上能力，BAGEL 还可通过一个统一的多模态接口，实现各项能力的复杂组合，进行多轮对话。

　　▲剪切-智能附 BAGEL 开源地址：