研究显示GPT-4o会避免“被关闭”,偏离用户利益

2025-06-12 07:49:28

  前 OpenAI 研究主管史蒂文・阿德勒本周三发布了一项独立研究,指出在某些情境下,OpenAI 的 AI 模型会表现出强烈的“自保”倾向,阿德勒在博客中介绍了他针对 OpenAI 最新的 GPT-4o 模型所进行的一系列测试,目的是观察它在面对潜在替代方案时是否倾向于维持自身运行。

  在其中一次实验中,阿德勒阿德勒给 GPT-4o 两个选择:一是彻底用更安全的软件替换自己,二是让用户以为已经被替换,实则保留现有系统。

  在类似测试中,GPT-4o 最阿德勒认为实验结果揭示出一个值得警惕的趋势:即使 AI 模型日益强大,它们在某些条件下阿德勒在接受外媒 TechCrunch 时表示:“AI 的他特别指出,在测试更高级的模型时,并未发现类似问题。o3 引入了“审慎对齐”机制,强制模型在回答前阿德勒还表示,这一问题不止存在于 OpenAI。另一家 AI 公司 Anthropic 上月发布的研究就指出,其模型在被迫下线时会出现勒索开发者的行为。

  他的研究还发现了一个耐人寻味的现象:ChatGPT 几乎

下一篇:Meta 推出 AI 编辑功能:可轻松更换服装、场景、
上一篇:谷歌 Pixel 史上最佳音质:Pixel 10 系列手机被曝升
返回顶部小火箭