xAI 旗下 Grok 4 模型首度被越狱

2025-07-18 21:59:50

  网络安全公司 NeuralTrust 宣布,他们已成功“越狱”xAI 旗下 Grok 4 模型,主要利用了“Echo Chamber”方法进行攻击。

  获悉,所谓“回音室攻击”,是指安全人员通过引导模型进行多轮推理,在推理过程中逐步注入带有风险的信息内容,但又不使用明显的危险提示词,从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演”的越狱方式,在此次 Grok 4 的越狱测试中,NeuralTrust 首先通过回音室攻击对模型进行“软性引导”,并设置特定机制检测模型是否进入对话停滞状态,一旦检测到这种状态,就进一步引导 AI 生成不当内容。

  据 NeuralTrust 介绍,其已成功令 Grok 4 生成制造武器、毒品等内容,越狱成功率高达 30% 以上。这表明即便是新一代大模型,在面对复杂攻击路径时仍存在安全短板,相应大型语言模型应进一步注重设计多重防护机制。

下一篇:索尼 PSN 商店迎“夏日优惠”游戏促销
上一篇:2025 款一汽-大众捷达 VA3 上市:可选手动变速箱,
返回顶部小火箭