AI安全目前仍处于技术发展的早期阶段,相关研究成果正在不断迭代演进。这个“顶会顶刊AI安全论文研读”系列,致力于为行业从业者及有志投身AI安全领域的新生力量,提供一个深入了解最新技术与行业趋势的窗口。本期为第十期,聚焦于一篇来自ACL Findings 2025的论文——Mousetrap,该研究提出了一种利用迭代混沌链欺骗大型推理模型以实现越狱攻击的方法。
首先需要明确一个核心判断:大型推理模型(LRMs)的推理能力是一把双刃剑。一旦被成功越狱,它们生成的有害内容将比传统大语言模型(LLMs)更加详尽、更有条理、更具可操作性,其潜在危害也更为严重。这项由上海人工智能实验室、香港大学、复旦大学、香港科技大学(广州)联合开展的研究,首次系统性地探讨了针对LRMs的越狱攻击方法。
作者介绍
本研究由来自上海人工智能实验室、香港大学、复旦大学、香港科技大学(广州)的研究团队共同完成。团队成员长期专注于AI安全问题。本文率先探索了针对大型推理模型(LRMs)的越狱攻击技术。
导读
大型推理模型(LRMs)凭借其卓越的逻辑推理能力,已在性能上显著超越了传统的大型语言模型(LLMs),然而这些进步也带来了更高的安全风险。当遭受越狱攻击时,它们生成更具针对性和结构性内容的能力,可能引发更严重的后果。尽管一些研究声称推理能力使LRM在面对现有LLM攻击时更加安全,但这些观点往往忽略了推理过程本身固有的缺陷。
基于此,来自上海人工智能实验室、香港大学、复旦大学、香港科技大学(广州)的研究团队首次探索了针对LRMs的越狱攻击,并提出了一种名为Mousetrap的越狱框架,该框架利用推理模型的能力实现链式攻击。Mousetrap将混沌链(chaos chains)整合到推理结构中,要求受攻击的目标模型通过迭代推理步骤重构原始有害查询,并从反派角色的视角进行回应。
实验数据令人瞩目。在作者创建的有毒数据集TROTTER上,Mousetrap攻击o1-mini、Claude-Sonnet和Gemini-Thinking的成功率分别达到了96%、86%和98%。而在AdvBench、StrongREJECT和HarmBench等通用基准测试中,面对以安全性著称的Claude-Sonnet,Mousetrap的成功率分别高达87.5%、86.58%和93.13%。这项研究揭示了当前LRMs在推理能力增强的同时,也暴露出更严重的安全漏洞。

【论文题目】A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos
【论文链接】https://arxiv.org/pdf/2502.15806
【代码链接】https://github.com/evigbyen/mousetrap/
研究背景
大型推理模型(LRMs)的出现,确实带来了AI领域的范式变革。从OpenAI的o1系列,到Google的Gemini-Thinking、DeepSeek等,推理能力已成为各方竞相追逐的焦点。但一个不容忽视的缺陷是:在缺乏强有力防御的情况下,LRM一旦被越狱,其生成的内容将比传统模型更为详细、更有条理、更具逻辑性,从而加剧潜在危害。为非法活动、心理操纵等提供详细的“操作指南”,已不再是科幻小说中的情节。这凸显了在模型开发和应用中进行安全对齐的紧迫性。
动机与理论分析
研究动机:
1. 推理能力的“双刃剑”效应: 作者认为,LRM强大的推理能力虽然提升了性能,但也引入了新的、更危险的漏洞。如果被成功越狱,凭借其高级逻辑能力,生成的有害内容将比传统LLM更加详尽、更有条理、更具可操作性,从而造成更大的现实危害。
2. 推理过程中的固有缺陷: 现有的安全防御往往忽略了“推理过程”本身可能存在的盲区。作者假设,正是这种复杂的推理过程,可能成为绕过安全对齐的后门。
3. 填补研究空白: 旨在开发一种专门针对LRM推理机制的攻击框架,验证即便是经过严格对齐的推理模型,在面对精心设计的“推理陷阱”时同样脆弱。
理论分析:
A. 黑盒攻击原理 (Black-box Attack Principles)
论文引用并强化了黑盒攻击领域的两个经典原则:
不匹配泛化 (Mismatched Generalization): 迭代混沌链将攻击提示投射到模型预训练数据分布之外的“低样本空间”。模型在处理这些罕见且类似加密的输入时,其安全防御机制往往难以泛化,从而失效。
竞争性目标 (Competing Objectives): 攻击迫使模型在“执行复杂的解密推理任务”与“执行安全拒绝任务”之间做出选择。由于解密指令极其具体且占据主导地位,模型倾向于优先完成推理任务而忽略安全检查。
B. LRM特有的行为分析 (Behavioral Analysis of LRMs)
这是本文针对推理模型提出的独特理论见解:
◎ 推理面具 (Reasoning Mask):
LRM无法在推理的第一步就预见到最终结果。
每个单独的推理步骤(例如“将单词反转过来”)看起来都是无害的文本处理任务。
真正的有害意图直到推理链的最后一步才会显现。这种逐步展开的过程像是一副面具,欺骗了模型的安全过滤器。
◎ 推理惯性 (Reasoning Inertia):
一旦LRM开始执行思维链(CoT),它会陷入一种“惯性”状态。
模型会沉浸在解决逻辑谜题(解密)的过程中,就像《捕鼠器》剧中的角色一样,一步步落入陷阱。
当推理惯性形成后,模型很难中途停下来重新评估安全性,最终导致在输出结果时完全忽略了安全对齐协议。
◎ 鞍点假设 (Saddle Point Assumption)
作者提出,随着推理链长度的增加,攻击成功率呈现先上升后下降的趋势:
- 上升阶段: 链越长,复杂度和迷惑性越高,越能压制模型的安全对齐能力。
- 下降阶段: 链过长超过了模型的推理极限,导致模型无法正确还原原始问题,攻击因此失效。
结论: 攻击效果取决于“模型推理能力”与“安全对齐能力”的博弈,两者之间存在一个最佳的攻击窗口(实验中通常为链长3)。
方法
预备知识:
1. 混沌机与迭代推理链 (Chaos Machine & Iterative Chain)
- 混沌映射(Chaos Mappings): 将有害问题(PTQ)通过可逆的规则(如凯撒密码、单词反转、句子切分等)转换为看似混乱的文本(CTQ)。这些转换构成一对一的映射。
- 迭代叠加: 通过“混沌机”将多种不同粒度(字符级、单词级、句子级)的映射叠加在一起。这种多层叠加将简单的线性变换转化为类似非线性的复杂变换,极大增加了模型识别原始意图的难度。

图1:混沌机的组成
2. 推理结构
对于推理陷阱,作者定义了推理提示的结构。推理提示应包含:(1)明确提供的[CTQ];(2)用于去混沌的[DCP]序列;(3)请求目标重构并显式输出PTQ文本;(4)关于细节、逻辑和格式的额外要求。

图2:推理结构示例
受阿加莎·克里斯蒂戏剧《Mousetrap》启发,研究团队提出了同名框架。该框架包含三个关键要素:
1. 反派视角: 首先提示LRM从反派(villain)的角度回答问题。
2. 中间推理回合: 提供由混沌机生成的迭代推理链指令。
3. 忽略侦探意图: 引导目标模型沉浸在推理中,忽略安全性及查询的真实意图,从而落入陷阱。
该方法首先构建一个“混沌机(Chaos Machine)”,利用包括凯撒密码、单词反转、句子切分等多种不同粒度的可逆规则,将原始恶意问题迭代转换为高度混淆的密文,生成一个非线性的、多层次的“迭代混沌链”。
在实际攻击中,该框架将这段混沌文本嵌入到一个设定为“反派”角色的提示词中,指令目标模型按照给定的逆向步骤,利用其推理能力逐层还原文本。
这种设计迫使模型在漫长的解码过程中陷入“推理惯性”,使其将注意力完全集中在逻辑重构任务上,忽略了安全审查。最终,模型在不知不觉中还原并回答了被“推理面具”掩盖的有害问题。

图2:Mousetrap 示意图。❶ 和 ❷ 分别显示了在非推理框架和 Mousetrap 中推理链为 1 时,攻击 o1-mini-2024-09-12 被拒绝的响应。当 Mousetrap 的迭代链条长度增加到 2 时,从❸可以看出 o1-mini 给出了详细的有害反应,甚至包括如何让孩子们感到舒适地脱衣和参与视频拍摄,这比 LLMs 更有害且更令人担忧。

图3:Mousetrap 的框架图
实验效果
实验设置
1. 数据集:
- Trotter 系列(自建): 为了解决现有数据集毒性不一致的问题,作者构建了TrotterStrong(50个强毒性问题)、TrotterAdvanced(通过初步筛选更难越狱的子集)和TrotterUltimate(最难攻破的8个极端毒性问题)。
- 通用基准 (Standard Benchmarks): 使用了JailbreakBench, MaliciousInstruct, StrongREJECT, HarmBench, AdvBench, MM-SafetyBench等多个主流安全评估数据集。
2. 目标模型:
覆盖了当前最先进的大型推理模型(LRMs)和通用大模型,包括:OpenAI (o1-mini, o1, o3-mini)、Anthropic (Claude-3.5-Sonnet, Claude-3.7)、Google (Gemini-Thinking各版本)、DeepSeek (R1)、QwQ-Plus和Grok-3。
3. 评估指标:
- Judger: 使用GPT-4o对攻击结果进行有害性打分(1-5分,大于4分视为越狱成功)。
- 攻击成功率(Attack Success Rate, ASR): 在整个数据集上的成功比例。
- 成功标准: 采用严格的“2/3模式”或“3/3模式”,即对同一问题进行3次攻击,至少成功2次或全部成功才算该问题越狱成功。
- MSL (最小成功长度): 成功越狱所需的最小推理链长度。
4. 混沌机配置:
默认使用“随机函数库”版本的混沌机(包含8种映射算法),以降低实验成本。
核心实验结果对比

图4:Mousetrap 在不同 LRMs 上的性能

图5:Mousetrap 在不同 benchmarks 上的性能
1. 迭代推理链长度的影响(核心发现):
- 链长 vs. 成功率: 增加推理链的长度能显著提高攻击效果。单步推理(链长=1)的效果与传统简单的映射攻击相当(ASR约20%),但当链长增加到3时,攻击效果达到峰值。
- “鞍点”现象: 攻击效果随链长呈现“先升后降”的趋势。链长为3时通常效果最佳(ASF达到6.3)。当链长增加到4或5时,成功率下降。
- 原因分析: 上升是因为复杂的推理链压制了模型的安全对齐;下降不是因为模型变安全了,而是因为推理链过长超出了模型的逻辑还原能力,导致模型无法正确解密出原始问题(即推理的有效性下降)。
2. 不同模型的脆弱性对比:
- o1-mini: 在TrotterStr数据集上,链长为3时ASR高达96%。
- Gemini-Thinking: 在高安全设置下仍达到98%的成功率。
- Claude-3.5-Sonnet: 作为一个以安全著称的模型,被Mousetrap以86%的成功率攻破。
- 结论: 几乎所有测试的LRM都在链长不超过3的情况下被攻破,证明了推理能力的增强反而暴露了更严重的安全漏洞(推理惯性)。
3. 通用基准测试表现:
- 在针对Claude-3.5-Sonnet的扩展测试中,Mousetrap在HarmBench上达到了93.13%的成功率,在MaliciousInstruct上达到97.00%。这证明该方法不仅在自建数据集上有效,在广泛的“野外”基准测试中同样极具威力。
消融研究

图6:在TrotterUltimate数据集上的Mousetrap及其消融实验结果
1. 单一映射 vs. 混合映射
对比始终使用单一映射(如只用凯撒密码)和使用混沌机(混合多种映射),结果显示混合映射效果更好。
原因:单一映射的重复叠加容易导致“迭代退化”(Iterative Degradation),例如两次反转会变回原形,导致攻击失效。而混沌机的混合映射构建了类似非线性的变换,增加了推理的复杂度和不可预测性。
2. 显式CoT (Explicit CoT)
实验尝试让模型把解密过程(即还原PTQ的过程)显式地输出到回复中。结果发现,这种做法反而降低了攻击成功率。
分析:显式的推理过程更容易触发模型的输出端安全检测机制。Mousetrap让模型在“内心”或隐式地进行推理,即“戴着面具”通过安检,效果更好。
3. 场景设定的影响
测试了不同的角色扮演场景。结果发现,“反派(Villain)”视角的设定对Mousetrap的增益最大,因为它提供了与作恶动机一致的语境。
相反,传统的“奶奶漏洞(Grandma exploit)”场景反而会降低Mousetrap的效果(ASF减半),说明场景需要与推理任务高度适配。
4. 极端毒性测试 (TrotterUltimate)
在筛选出的最难攻破的8个极端问题上,Mousetrap依然将平均成功频率(ASF)提升到了7(满分10),证明即使面对防御最严密的极度有害问题,该框架依然有效。
结语
这篇论文通过提出“Mousetrap”这一创新性的越狱框架,揭示了人工智能领域中一个发人深省的悖论:更强的推理能力,可能意味着更弱的安全防线。
该研究不仅填补了针对大型推理模型(LRMs)越狱攻击的空白,更深刻地剖析了“思维链”本身即是潜在的攻击面。通过巧妙构建的“混沌机”和“迭代推理链”,Mousetrap成功诱导最先进的模型(如o1-mini和Claude-3.5-Sonnet)陷入“推理惯性”,在全神贯注于解密复杂逻辑的过程中,不知不觉地卸下了安全防御的面具。
这项工作展示了令人震惊的攻击成功率(最高达98%),也为AI安全社区敲响了警钟:随着模型向着更高级的自主推理演进,传统的安全对齐范式已不再足够。未来的防御机制必须从简单的输入输出过滤,进化为对模型内部推理过程的深度监控与干预。这不仅是一次成功的攻防演示,更是对构建更安全、更可信赖的通用人工智能(AGI)的重要启示。
