OpenAI 宣布开源 SimpleQA 新基准，专治大模型“胡言

2024-10-31 08:05:39

　　当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求问题的能力。

　　AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠，可以用于更广泛的应用领域。

　　OpenAI 表示，目标是使用 SimpleQA 创建一个具备以下特点的数据集：

　　SimpleQA 将是一个OpenAI 表示，模型在短回答中表现出的事实性是否与其附有关地址：

　　开源链接：

　　论文：