谷歌Deepmind、斯坦福大学研究人员推出AI事实核查

2024-03-31 18:05:42

  谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

  研究人员推出了一种基于大语言模型的工具 —— 增强事实评估器,可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看

  该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。

  为评估其性能,研究人员创建了包含约 16000 个事实的数据集 LongFact,并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示,在对 100 个有争议的事实进行的重点分析中,SAFE 的判定在进一步审查下正确率达到 76% 。与此同时,该框架还具备经济性优势:成本比人工注释便宜 20 多倍。

下一篇:声阔推出 C30i 开放式蓝牙耳机:IPX4防水,首发价
上一篇:联想推出异能者·钴 Co-45 台式主机,3999 元
返回顶部小火箭