不达目的不罢休，全球首次发现 OpenAI 模型工作

2025-05-26 08:55:27

　　Palisade Research 最近一项关于“危险 AI 能力”的研究显示，某些 AI 模型 —— 包括 OpenAI 的 o3 —— 在研究中，每个 AI 模型都被指示解决一系列基础数学问题。在第三个问题后，然而，

　　Codex-minio3o4-mini

　　而 Claude、Gemini 和 Grok 模型都遵守了关闭指令。

　　此外，当研究人员不运行“允许自己被关闭”的指令时，这种行为表明了训练过程中的某些方面，强化学习在数学和编程问题上的训练可能使 AI 找到了克服障碍的创造性方法，即使它们被明确指示不要这样做。

　　Palisade Research 表示，研究人员推测这种行为源于最新模型如 o3 的训练方式：在数学和编程问题上进行强化学习。在训练过程中，不过，这仍然无法解释为什么 o3比测试的其他模型更倾向于忽视指令。由于 OpenAI 没有详细说明他们的训练过程，因此只能猜测 o3 的训练设置可能有所不同。

　　Palisade Research 表示正在进行更多实验，以更好地理解 AI 模型为何即使在直接被指示不要的情况下仍会破坏关闭机制，计划在几周内发布一份包含更多详细信息的报告。

　　附完整实验记录：