阿里云通义千问Qwen2.5-Max数学及编程能力登顶最新

2025-02-05 19:28:27

  1 月 29 日新年之际,阿里云公布了其全新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型,号称在多个基准测试中超越 DeepSeek V3 等竞争对手。

  阿里云今日宣布,Qwen2.5-Max 在 Chatbot Arena 大模型盲测中超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七名,也是非推理类的中国大模型冠军。

  同时,Qwen2.5-Max 在数学和编程等单项能力上排名第一,在硬提示方面排名第二。

  查询公开资料获悉,Chatbot Arena 是由 LMSYS Org 推出的大模型性能测试平台,目前集成了 190 多种模型。

  该榜单采用匿名方式将大模型两两组队,交给用户进行盲测,用户根据真实对话体验对模型能力进行投票。因此,阿里云表示,在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等主流基准测试中,Qwen2.5-Max 比肩 Claude-3.5-Sonnet,并几乎全面超越了 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。

下一篇:中文在线:已在部分内部 AI 网文创作流程中部署
上一篇:广汽埃安 AION UT 纯电小车本月底上市,预售 8.9
返回顶部小火箭