大模型“自动修bug”能力将提升,豆包开源多语

2025-04-10 15:09:40

  豆包大模型团队今日通过官方宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。

  在 SWE-bench 基础上,Multi-SWE-bench Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

  SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。

  Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:

  首次覆盖 7 种主流编程语言,构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;

  引入任务难度分级机制,将问题划分为简单、中等和困难三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;

  1,632 个实例全部

  附开源链接:

  Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:

  论文链接:

  榜单链接:

  代码链接:

  数据链接:

下一篇:Ubuntu 25.04 升级图像体验,首次默认支持 JPEG-XL 格
上一篇:消息称任天堂推迟 Switch 2 在中国的发售计划
返回顶部小火箭