阿里通义千问 Qwen 推 CodeElo，o1-mini 夺冠超 90%人类

2025-01-05 10:07:37

　　阿里通义千问 Qwen 最新推出 CodeElo 基准测试，通过和人类程序员对比的 Elo 评级系统，来评估大语言模型的编程水平。

　　项目背景

　　大语言模型的 AI 场景应用之一，就是生成、补全代码，只是现阶段评估编程真实能力方面存在诸多挑战。

　　包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性，缺乏健壮的私有测试用例，不支持专门的判断系统，并且经常使用不一致的执行环境。

　　CodeElo：借力 CodeForces，打造更精准的 LLM 评估体系

　　注：Qwen 研究团队为了解决这些挑战，CodeElo 的题目来自 CodeForces 平台，该平台以其严格的编程竞赛而闻名，通过直接向 CodeForces 平台提交解决方案，CodeElo 确保了评估的准确性，解决了误报等问题，并支持需要特殊评判机制的题目。此外，Elo 评级系统反映了人类的排名，可以有效比较 LLM 和人类参赛者的表现。

　　CodeElo 三大核心要素：全面、稳健、标准化

　　CodeElo 基于三个关键要素：

　　测试结果

　　在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后，OpenAI 的 o1-mini 模型表现最佳，Elo 评分为 1578，超过了 90% 的人类参与者；开源模型中，QwQ-32B-Preview 以 1261 分位居榜首。

　　然而，许多模型在解决简单问题时仍显吃力，通常排名在人类参与者的后 20%。分析显示，模型在数学和实现等类别表现出色，但在动态规划和树形算法方面存在不足。

　　此外，模型使用 C++ 编码时表现更佳，这与竞技程序员的偏好一致，这些结果突出了 LLM 需要改进的领域。