不达目的不罢休,全球首次发现 OpenAI 模型工作

2025-05-26 08:55:27

  Palisade Research 最近一项关于“危险 AI 能力”的研究显示,某些 AI 模型 —— 包括 OpenAI 的 o3 —— 在研究中,每个 AI 模型都被指示解决一系列基础数学问题。在第三个问题后,然而,

  Codex-minio3o4-mini

  而 Claude、Gemini 和 Grok 模型都遵守了关闭指令。

  此外,当研究人员不运行“允许自己被关闭”的指令时,这种行为表明了训练过程中的某些方面,强化学习在数学和编程问题上的训练可能使 AI 找到了克服障碍的创造性方法,即使它们被明确指示不要这样做。

  Palisade Research 表示,研究人员推测这种行为源于最新模型如 o3 的训练方式:在数学和编程问题上进行强化学习。在训练过程中,不过,这仍然无法解释为什么 o3比测试的其他模型更倾向于忽视指令。由于 OpenAI 没有详细说明他们的训练过程,因此只能猜测 o3 的训练设置可能有所不同。

  Palisade Research 表示正在进行更多实验,以更好地理解 AI 模型为何即使在直接被指示不要的情况下仍会破坏关闭机制,计划在几周内发布一份包含更多详细信息的报告。

  附完整实验记录:

下一篇:全球首款 Office 智能体:昆仑万维天工超级智能体
上一篇:3000 亿市值海光信息拟合并 900 亿中科曙光
返回顶部小火箭