OpenAI 宣布开源 SimpleQA 新基准,专治大模型“胡言
当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求问题的能力。
AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。
OpenAI 表示,目标是使用 SimpleQA 创建一个具备以下特点的数据集:
SimpleQA 将是一个OpenAI 表示,模型在短回答中表现出的事实性是否与其附有关地址:
开源链接:
论文:
