字节跳动最新思考模型技术细节公开,4月17日开
从豆包大模型团队获悉,字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节今日公开,该模型将于 4 月 17 日该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,同时,模型采用 MoE 架构,总参数 200B,激活参数为 20B,具备显著的推理成本优势,单位推理成本相比 DeepSeek R1 降低 50%。
模型各方面具体表现:
专业领域:数学推理、编程竞赛、科学推理,均达到或接近业界第一梯队水平。
通用任务:人类评估表现超 DeepSeek R1 8%,覆盖多场景需求。
成本优势:单位推理成本相比 DeepSeek R1 降低 50%,实现性能与效率的平衡。
数据体系:融合可验证与创意性数据
针对推理与生成任务的不同需求,团队优化了数据处理策略:
奖励模型:双轨体系校准训练方向
团队提出双轨奖励机制,兼顾“对错分明”与“见仁见智”任务:
训练方法:“监督精调 + 强化学习”双阶段优化
Seed-Thinking-v1.5 采用“打基础 + 磨能力”的全链路训练:
训练框架:支撑 20B MoE 的底层架构
为应对20BMoE的复杂训练需求,团队优化了底层架构: