OpenAI 新推理模型被曝产生更多幻觉,性能提升却

2025-04-19 08:37:43

  幻觉问题一直是生成式 AI 发展过程中根据 OpenAI 的内部测试,作为推理模型的 o3 和 o4-mini,出现幻觉的频率不仅OpenAI 在针对这两款模型发布的技术报告中表示:“要弄清楚随着推理模型规模的扩大,幻觉问题为何反而变得更加严重,还需要进一步研究。”报告指出,尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往,但由于模型输出的在 OpenAI 设计的内部基准测试 PersonQA 中,o3 回答问题时出现幻觉的比例达到 第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现,o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如,Transluce 曾观察到,o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码,并将结果进了答案中。实际上,虽然 o3 拥有一部分工具访问权限,但并不具备执行这种操作的能力。

  OpenAI 发言人 Niko Felix 表示:“解决幻觉问题是我们一直在推进的重点研究方向,我们也在不断努力提升模型的准确性与可靠性。”

下一篇:微软 Win11 24H2 修复 Chrome 等浏览器屏幕共享色彩失
上一篇:比亚迪腾势首款概念超跑将于 2025 上海车展亮相
返回顶部小火箭