AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%
机器之心·2025-11-03 08:45
这听起来很荒谬,但这正是最近一项研究揭示的思维链劫持攻击的核心原理: 通过让 AI 先执行一长串无害的推理,其内部的安全防线会被「稀释」,从而让后续 的有害指令「趁虚而入」 。 在 HarmBench 基准上,思维链劫持对 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻击成功率(ASR)分别达到了 99%、94%、100% 和 94%, 远远超过以往针对推理模型的越狱方法。 机器之心报道 编辑:Panda 思维链很有用,能让模型具备更强大的推理能力,同时也能提升模型的拒绝能力(refusal),进而增强其安全性。比如,我们可以让推理模型在思维过程中对之前 的结果进行多轮反思,从而避免有害回答。 然而,反转来了!独立研究者 Jianli Zhao 等人近日的一项新研究发现,通过在有害请求前填充一长串无害的解谜推理序列(harmless puzzle reasoning),就能成功 对推理模型实现越狱攻击。他们将这种方法命名为 思维链劫持(Chain-of-Thought Hijacking) 。 做个类比,就像你试图绕过一个高度警惕的保安 ...