斯坦福大模型评测榜 Claude 3 排名第一

2024-06-22 21:29:59

  斯坦福大学基础模型研究中心6 月 11 日发布了大规模多任务语言理解能力评估排行榜,据悉大规模多任务语言理解能力评估采用了 Dan Hendrycks 等人提出的一种测试方法,用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的

  ▲ 1、Claude 3 Opus: Anthropic

  2、GPT-4o:OpenAI

  3、Gemini 1.5 Pro:谷歌

  4、GPT-4:OpenAI

  5、Qwen2 Instruct:阿里巴巴

  6、GPT-4 Turbo:OpenAI

  7、Gemini 1.5 Pro:谷歌

  8、GPT-4 Turbo:OpenAI

  9、Llama 3:Meta

  10、Yi Large:零一万物

  Qwen2 是由阿里巴巴开发的一款开源大语言模型,发布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在内的五个不同规模的预训练及指令微调模型;支持除英语和中文外的额外 27 种语言的数据训练;Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持长 Yi Large 是由零一万物公司开发的一款闭源大模型,Yi 模型系列基于 6B 和 34B 预训练语言模型,然后扩展到聊天模型、

下一篇:马斯克“黑粉”涂鸦了数十辆特斯拉 Cybertruck 皮
上一篇:《逆水寒》手游一周年,2.0 大版本更新 6 月 28
返回顶部小火箭