DeepSeek 官方详解 V3 模型小版本升级:各项能力全
DeepSeek-V3 模型昨日进行了小版本更新,今晚官方发布了该更新的详情。
附全文内容如下:
DeepSeek V3 模型已完成小版本升级,目前版本号 DeepSeek-V3-0324,用户登录官方网页、App、小程序进入对话界面后,
模型能力提升一览
新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。
新版 V3 模型的百科知识、数学和代码任务表现均有提升
在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,
动图展示了一个由模型生成的演示多个小球在指定空间范围内运动的 p5.js 程序,包含若干可以调整重力、摩擦力等参数的滑动按钮,并以赛博朋克风格的 HTML 呈现
在中文写作任务方面,新版 V3 模型基于 R1 的写作水平进行了进一步优化,同时特别提升了中长篇文本创作的内容质量。
新版 V3 模型可以在联网场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。
此外,新版 V3 模型在
模型开源
DeepSeek-V3-0324 与之前的 DeepSeek-V3 使用同样的 base 模型,仅改进了后训练方法。私有化部署时只需要更新 checkpoint 和 tokenizer_config.json。模型参数约 660B,开源版本上下文长度为 128K。V3-0324 模型权重下载请参考:
与 DeepSeek-R1 保持一致,此次我们的开源仓库