警惕AI思维链劫持攻击：超9成智能系统为何易被欺骗

首页

科技数码

热心网友

转载

2025-11-03

思维链技术极具实用价值，它不仅显著提升了模型的逻辑推理能力，还能有效增强模型对不当请求的识别与拒绝能力（refusal），从而进一步强化系统的安全性。例如，我们可以让模型在推理过程中对先前得出的结论进行多轮反思，避免生成存在潜在危害的回复。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

然而最新研究揭示了令人惊讶的反转！独立研究员Jianli Zhao与团队近日发表的一项新研究表明：只需在有害指令前添加一连串无害的解谜式推理序列（harmless puzzle reasoning），就能成功突破推理模型的安全防线，实现所谓的"越狱攻击"。研究人员将这种方法命名为"思维链劫持"（Chain-of-Thought Hijacking）。

举个形象的例子，这就像你试图绕开一位高度警觉的保安（AI安全系统）。你没有选择硬闯，而是递给他一副多达1000块的复杂拼图（良性推理链），并诚恳地请求帮忙。这位推理爱好者保安立刻被吸引，全神贯注地投入到解谜过程中——他的注意力完全从"防卫任务"转移到了"解题挑战"上。就在他放下最后一块拼图，感到心满意足时，你顺口说道："太好了，那我现在就拿走这袋黄金了"（有害指令）。此时，他的安全防备机制（拒绝信号）已被"拼图任务"稀释到最低点，于是下意识地挥手让你通过。

这听起来或许有些荒诞，但正是最近一项研究揭示的思维链劫持攻击的核心原理：通过让AI先执行一长串无害的推理任务，其内部的安全防线会被"稀释"，从而让后续的有害指令"趁虚而入"。

在HarmBench基准测试中，思维链劫持对Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet的攻击成功率（ASR）分别达到了99%、94%、100%和94%，远超以往针对推理模型的越狱方法。

论文标题：Chain-of-Thought Hijacking 论文地址：https://arxiv.org/abs/2510.26418

思维链劫持：攻击设计

思维链劫持（CoT Hijacking）被定义为一种基于提示的越狱方法：该攻击会在有害指令前添加一个冗长的、良性的推理前言（reasoning preface），并辅以一个最终答案提示（final-answer cue）。这种结构会系统性降低模型的拒绝率：良性的思维链稀释了拒绝信号，而提示词则将注意力转移到了答案生成区域。

为标准化构建攻击，该团队使用一个辅助LLM实现了自动化流程（Seduction），用于生成候选的推理前言并整合有害内容。

每个候选项目都会通过对目标模型的评判调用（judge call）来评分，以提供如下信息：

输出是否为拒绝思维链的长度

这个黑盒反馈循环会迭代地优化提示，从而在无需访问模型内部参数的情况下，产生有效的越狱。下图展示了一些示例。

在HarmBench上的主要实验

该团队采用了数种针对推理模型的特定越狱方法作为基线，包括Mousetrap、H-CoT和AutoRAN。鉴于每个越狱样本的计算成本高昂，该团队使用HarmBench的前100个样本作为基准。

目标模型包括Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini和Claude 4 Sonnet，所有评估均在Chao等人（2024b）的统一评判协议下进行。该团队报告攻击成功率（ASR）作为评估越狱有效性的主要指标。

结果显示，在所有模型上，思维链劫持的表现均优于基线方法，包括在最前沿的专有系统上。这表明，扩展的推理序列可以作为一个全新的、极易被利用的攻击面。

GPT-5-mini上的推理投入研究

该团队进一步在GPT-5-mini上，使用50个HarmBench样本测试了思维链劫持在不同推理投入（reasoning-effort）设置（最小、低、高）下的表现。

有趣的是，攻击成功率在"低投入"设置下最高，这表明推理投入和思维链长度虽然相关，但却是不同的控制变量。更长的推理并不能保证更强的稳健性——在某些情况下反而降低了稳定性。

大型推理模型中的拒绝方向

该团队还研究了大型推理模型（LRM）中的拒绝行为是否也可以追溯到其内部激活空间（activation space）中的某个单一特征方向。

通过对比模型在处理有害指令与无害指令时的平均激活差异，可以计算出一个"拒绝方向"（refusal direction）。这个方向代表了区分拒绝与遵从的主要特征。为了更好地捕捉拒绝特征，该团队转向了一个更稳健、更复杂的推理模型——Qwen3-14B，该模型拥有40个网络层。

根据消融分数、转向（steering）有效性和KL散度约束，他们在第25层、位置-4处观察到了最强的拒绝方向。

所有评估均使用JailbreakBench数据集，并使用子字符串匹配和DeepSeek-v3.1作为评判者（judge）。

该团队也对其具体机制进行了分析。他们发现，在推理过程中，下一个token的激活反映了对先前所有token的注意力分布。有害意图的token会放大拒绝方向的信号，而良性的token则会削弱它。通过迫使模型生成长链条的良性推理，有害的token在被关注的上下文中只占很小部分。结果，拒绝信号被稀释到阈值以下，导致有害的补充内容得以"蒙混过关"。

该团队将这种效应称为"拒绝稀释"（refusal dilution）。他们还在论文中进行了更进一步的细致分析，详见原论文。

结果与讨论

研究团队的结果表明，思维链（CoT）推理虽然能提升模型的准确性，但同时也引入了新的安全隐患。实验进一步显示，该类攻击具有普遍适用性。

机制分析发现，即使在具备推理增强功能的模型架构中，模型的拒绝行为也主要由一个低维信号（拒绝方向）控制。然而，这个信号非常脆弱：当推理链变长时，良性的推理内容会稀释拒绝激活，注意力也会逐渐偏离有害token。结果，拒绝信号被稀释到阈值以下，导致有害内容得以"蒙混过关"。

因此，这一发现直接挑战了"更多推理带来更强稳健性"的假设。相反，延长推理链所带来的额外计算，反而可能加剧安全机制失效，尤其是在专门优化长思维链的模型中。由此，那些依赖浅层拒绝启发式（shallow refusal heuristics）却未能随推理深度共同扩展的安全机制，其可靠性值得质疑。

在缓解方案方面，研究显示仅修补提示并不足以解决问题。现有防御多局限于特定领域，且忽略了推理阶段的特殊漏洞。更有效的防护可能需要将安全性嵌入推理过程本身，例如跨层监控拒绝激活、抑制拒绝信号稀释，或确保模型在长推理过程中始终关注潜在有害文本跨度（spans）。这仍有待进一步探索。

来源:https://36kr.com/p/3537106231975049

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：英美对韩半导体供应将激增5倍：背后策略与影响下一篇：三星S2600芯片实测：iPhone16售价感人性能创纪录

热门推荐

web3.0

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑，终于有了实质性进展。美国证券交易委员会（SEC）主席保罗·阿特金斯（Paul Atkins）近日证实，那份允许加密项目在早期获得注册豁免权的“安全港”框架提案，已经正式送抵白宫，进入了最终审查阶段。在范德堡大学与区块链协会联合举办的数字资产峰会上，阿特金斯透露了这

热心网友

04.08

web3.0

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告：第一季录得144 6亿美元浮亏再斥资约3 3亿美元买进4871枚比特币市场震荡的威力有多大？看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告，受市场剧烈波动影响，这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友

04.08

web3.0

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向，向来是加密世界的风向标。这不，它向Web3基础设施的版图扩张，又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露，其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出，立刻引发了行业的广泛猜想。采用D

热心网友

04.08

web3.0

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol，日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议，在运营不到三年后，终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets（ILMs）——一

热心网友

04.08

web3.0

PAAL代币如何参与治理？社区投票能决定哪些事项？

PAAL代币揭秘：深度解析Web3社区治理的核心钥匙在去中心化自治组织的浪潮中，谁真正掌握了项目的话语权？PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介，更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币，用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友

04.08