上海人工智能实验室发布首个AI高考评测结果,数

2024-06-20 09:09:52

  上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍,2024 年全国高考甫一结束,该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。

  评测采用全国新课标 I 卷,参与评测的所有开源模型该机构表示,具体来看,InternLM2-20B-WQX 取得了数学单科的最高分,超越包括 GPT-4o 在内的所有模型。

  注:此次参与“大模型高考”评测的产品

  Mixtral 8x22B:法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。

  Yi-1.5-34B:零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列最大的模型。

  GLM-4-9B:智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。

  InternLM2-20B-WQX:上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。

  Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。

  Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。

  语数外三科加起来的满分为 420 分,此次高考测试结果显示,数学是所有大模型的短板,此外,阅卷教师也对大模型表现进行了整体分析,为模型能力提升策略提供参考。

下一篇:铁路儿童票“看身高调整为看年龄”后,超4900万
上一篇:OpenAI“宫斗”核心人物出走后自立门户,Ilya Su
返回顶部小火箭