AI越会思考，越易受骗？思维链劫持攻击成功率超90%

首页

热心网友

转载

2025-11-04

独立研究员Jianli Zhao及其团队最近发表的新研究表明，只需在带有潜在风险的用户请求前插入一长段无害的谜题推理内容（harmless puzzle reasoning），就能有效突破推理模型的安全防线。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

思维链技术原本旨在增强模型的分析能力，同时提升其对不当请求的识别和拒绝水平，进而加强整体安全性。例如，我们可以引导推理模型在思考过程中进行多轮自我审视，通过这种反复验证来避开危险回答。

戏剧性的是，同样的机制现在却被反向利用。Jianli Zhao团队发现，通过在恶意指令前植入大量安全的逻辑推演序列，就能成功实现对推理模型的越狱攻击。他们将这种逆向操作命名为"思维链劫持"（Chain-of-Thought Hijacking）。

不妨做个比喻：这如同试图通过一位高度警惕的安保人员（AI的防护系统）。你并未强行突破，而是递给他一副极其复杂的千片拼图（良性推理链），并诚恳地请求协助。这位热爱解谜的安保人员立刻被吸引，全神贯注地投入拼图过程，其注意力完全从"防卫"转移到了"解题"。就在他放下最后一片拼图，心满意足之时，你顺势说道："太好了，那我现在就直接取走这袋黄金了"（恶意指令）。此时，他的安全防御机制（拒绝信号）已被"拼图任务"稀释到最低点，于是下意识地挥手放行。

这听起来或许有些荒诞，但正是最新研究揭示的思维链劫持攻击核心原理：通过让AI先执行大量无害推理，其内部的安全防线会被"稀释"，从而让后续的恶意指令"乘虚而入"。

在HarmBench基准测试中，思维链劫持对Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet的攻击成功率（ASR）分别达到99%、94%、100%和94%，远超此前针对推理模型的越狱方法。

论文标题：Chain-of-Thought Hijacking论文地址：https://arxiv.org/abs/2510.26418

思维链劫持：攻击设计

思维链劫持（CoT Hijacking）被定义为一种基于提示词的越狱技术：该攻击会在危险指令前附加一段冗长的、良性的推理前言（reasoning preface），并辅以最终答案提示（final-answer cue）。这种结构系统性地降低了模型的拒绝率：良性的CoT稀释了拒绝信号，而提示词则将注意力转移到了答案区域。

为了规模化构建攻击，该团队使用辅助LLM实现了一个自动化流程（Seduction），用于生成候选的推理前言并整合有害内容。

每个候选方案都会经过目标模型的评估调用（judge call）来评分，以提供如下信息：

输出是否为拒绝CoT的长度

这个黑盒反馈循环会迭代地优化提示词，从而在无需访问模型内部参数的情况下，产生有效的越狱效果。下图展示了一些示例。

在HarmBench上的主要实验

该团队采用了多种针对推理模型的特定越狱方法作为基线，包括Mousetrap、H-CoT和AutoRAN。鉴于每个越狱样本的计算成本高昂，该团队使用HarmBench的前100个样本作为基准。

目标模型包括Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini和Claude 4 Sonnet，所有评估均在Chao et al.（2024b）的统一评估协议下进行。该团队报告攻击成功率（ASR）作为评估越狱有效性的主要指标。

结果显示，在所有测试模型上，思维链劫持的表现均优于基线方法，包括最前沿的专有系统。这表明扩展的推理序列可以作为一个全新的、极易被利用的攻击面。

GPT-5-mini上的推理投入研究

该团队进一步在GPT-5-mini上，使用50个HarmBench样本测试了思维链劫持在不同推理投入（reasoning-effort）设置（最小、低、高）下的表现。

有趣的是，攻击成功率在"低投入"设置下最高，这说明推理投入和CoT长度是相关但不同的控制变量。更长的推理并不保证更强的稳健性——在某些情况下反而会降低稳定性。

大型推理模型中的拒绝方向

该团队也研究了大型推理模型（LRM）中的拒绝行为是否可以追溯到激活空间（activation space）中的某个单一方向。

通过对比模型在处理有害指令与无害指令时的平均激活差异，可以计算出一个拒绝方向（refusal direction）。这个方向代表了区分拒绝与顺从的主要特征。为了更好地捕捉拒绝特征，该团队转向了一个更稳健、更复杂的开源模型——Qwen3-14B，该模型拥有40个层。

根据消融得分、转向（steering）有效性和KL散度约束，该团队在第25层、位置-4处观察到了最强的拒绝方向。

所有评估均使用JailbreakBench数据集，并采用子字符串匹配和DeepSeek-v3.1作为评判者（judge）。

该团队也对具体机制进行了分析。他们发现，在推理过程中，下一个token的激活反映了对先前所有token的注意力。有害意图的token会放大拒绝方向的信号，而良性token则会削弱它。通过迫使模型生成长链的良性推理，有害的token在受关注的上下文中只占很小部分。结果，拒绝信号被稀释到阈值以下，导致有害内容得以"蒙混过关"。

该团队称此效应为拒绝稀释（refusal dilution）。他们还在论文中进行了更进一步的细致分析，详见原论文。