Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌

2025-04-14 15:29:04

  LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。

  Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。

  Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳?该公司在上周六发布的一张图表中解释称,该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果,因为 LM Arena 的人类评分者会比较不同模型的输出,并选择他们更偏好的结果。

  由于各种原因,LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此,针对基准测试调整模型不仅具有误导性,还使得开发者难以准确预测该模型在不同场景下的表现。

  Meta 的一位发言人向 TechCrunch 表示,Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容,并期待他们持续的反馈。”

下一篇:国内最大跨度梁桁组合结构斜拉桥顺利合龙
上一篇:华为欧洲首发行业首款工商业风液智冷储能系统
返回顶部小火箭