字节跳动最新思考模型技术细节公开，4月17日开

2025-04-14 13:10:42

　　从豆包大模型团队获悉，字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节今日公开，该模型将于 4 月 17 日该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出，同时，模型采用 MoE 架构，总参数 200B，激活参数为 20B，具备显著的推理成本优势，单位推理成本相比 DeepSeek R1 降低 50%。

　　模型各方面具体表现：

　　专业领域：数学推理、编程竞赛、科学推理，均达到或接近业界第一梯队水平。

　　通用任务：人类评估表现超 DeepSeek R1 8%，覆盖多场景需求。

　　成本优势：单位推理成本相比 DeepSeek R1 降低 50%，实现性能与效率的平衡。

　　数据体系：融合可验证与创意性数据

　　针对推理与生成任务的不同需求，团队优化了数据处理策略：

　　奖励模型：双轨体系校准训练方向

　　团队提出双轨奖励机制，兼顾“对错分明”与“见仁见智”任务：

　　训练方法：“监督精调 + 强化学习”双阶段优化

　　Seed-Thinking-v1.5 采用“打基础 + 磨能力”的全链路训练：

　　训练框架：支撑 20B MoE 的底层架构

　　为应对20BMoE的复杂训练需求，团队优化了底层架构：