上海人工智能实验室发布首个AI高考评测结果，数

2024-06-20 09:09:52

　　上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。

　　评测采用全国新课标 I 卷，参与评测的所有开源模型该机构表示，具体来看，InternLM2-20B-WQX 取得了数学单科的最高分，超越包括 GPT-4o 在内的所有模型。

　　注：此次参与“大模型高考”评测的产品

　　Mixtral 8x22B：法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。

　　Yi-1.5-34B：零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列最大的模型。

　　GLM-4-9B：智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。

　　InternLM2-20B-WQX：上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。

　　Qwen2-57B：阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。

　　Qwen2-72B：阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。

　　语数外三科加起来的满分为 420 分，此次高考测试结果显示，数学是所有大模型的短板，此外，阅卷教师也对大模型表现进行了整体分析，为模型能力提升策略提供参考。