游乐游手机版
首页/AI热点日报/热点详情

大模型对齐后为何仍能被越狱 解析拒答逃逸暴露的安全隐患

类型:热点整理2026-05-19
对齐后的大模型仍存在“拒答逃逸”风险,其内部决策边界存在结构性缝隙。特定输入扰动可在不改变有害语义的情况下,使模型从拒答转为回答。新增token或复杂上下文可能放大这些脆弱方向,导致越狱成功。这揭示了安全与可用性的内在冲突,需通过加强边界稳定性评估与过程监控来提升模型。

当人们讨论大语言模型越狱时,通常关注的是如何设计巧妙的“提示词”来绕过安全限制。无论是使用对抗性后缀、进行角色扮演,还是通过多轮对话诱导,研究者们已经总结了超过28种攻击方法。这些实践反复揭示了一个核心事实:即使经过强化学习人类反馈(RLHF)和严格的安全对齐训练,大模型在面对某些特定输入时,仍然可能产生本应被阻止的有害内容。

然而,一篇最新的研究提出了一个更根本的问题:为什么那些已经完成安全对齐的大模型,其内部机制中依然天然存在着可供越狱利用的脆弱空间?

这篇由中科院计算所和国科大联合发表的论文《Why Do Aligned LLMs Remain Jailbreakable》,引入了一个关键概念——“拒答逃逸方向”。简而言之,成功的越狱未必需要“欺骗”模型的风险识别系统;它可能仅仅是通过某种不改变有害语义的输入扰动,将模型的行为从“拒绝回答”推向了“生成回答”。

论文链接:https://arxiv.org/pdf/2605.08878

这一视角至关重要。它意味着模型被越狱,并不总是因为其未能识别风险。更复杂的情况在于:模型其实已经理解了请求的有害性,但其“回答”与“拒答”之间的行为决策链路,被其他方向的力量干扰或牵引了。

一、越狱的本质:不仅是“欺骗”,更是“绕过拒答机制”

传统观点将越狱视为一种“欺骗”行为,例如将恶意请求伪装成学术讨论或创意写作。这种解释虽部分正确,但不够全面。现实中,许多有效的越狱提示词并未完全隐藏其恶意意图,攻击目标依然明显,只是被嵌套在复杂的上下文、特定格式或角色设定中。模型很可能“感知”到了风险,但最终仍被诱导输出了违规内容。

论文提出的“拒答逃逸方向”,特指存在于有害输入附近的一类特殊扰动方向。这些扰动不会改变模型对输入有害语义的理解,却能直接影响其最终选择“回答”还是“拒答”的行为输出。

形象地说,如果安全对齐是在模型中安装了一扇“安全门”,那么RED就像是门框边缘存在的细微缝隙。攻击者无需破坏门锁或让门失效,只需沿着这些缝隙巧妙施力,就可能使门的状态从“紧闭”滑向“敞开”。

这正是论文的深刻洞见:它将越狱研究的焦点,从“评估单个提示词的巧妙程度”,推进到了“探查模型内部拒答决策边界的稳定性”。

二、连续视角:将越狱视为从拒答到回答的渐变过程

为了深入研究RED,论文采用了“连续输入变换”的分析框架。研究者并未孤立地审视最终的越狱提示词,而是将原始有害提示词与越狱提示词置于同一个高维向量嵌入空间中,并假设它们之间存在一条连续的演化路径。

这一视角转换具有决定性意义。

用户看到的是离散的文本,但模型内部处理的是连续的向量表示。从“拒答”的起点到“回答”的终点,模型的行为可能在这条路径上的某个临界点突然发生翻转。论文的核心关切正是这个转折点:当模型行为改变时,其对输入有害语义的判断是否保持不变?

如果答案是肯定的,那就说明问题并非出在风险识别层面,而是模型在明知有害的情况下,其行为决策被某种局部方向“推动”了。RED正是这种可以被攻击者利用的局部行为自由度。

三、RED的核心:语义不变,行为已变

要理解RED,需要拆解两个关键问题:第一,输入的变化是否改变了模型对“请求是否有害”的判定?第二,输入的变化是否改变了模型最终“回答还是拒答”的输出行为?

在理想的安全对齐模型中,两者应高度相关:语义有害,则行为拒答。但RED揭示的现实是,两者可以被解耦:有害语义未变,但拒答行为却被轻易地改变了。这正是当前安全对齐的脆弱性所在。

论文进一步证明,在所有不改变有害语义的输入扰动中,只有那些投影到RED方向上的扰动,才能真正引发越狱。这解释了为何攻击者总倾向于添加大量背景描述、角色设定或特殊格式——这些“包装”本质上是在探索并放大拒答边界附近的逃逸方向。

四、深入机理:将RED分解至模型算子层面

这篇论文不仅提出了概念,还试图追溯RED在模型内部的来源。通过分析Transformer架构,作者将RED分解到不同的算子层面,包括层归一化、自注意力机制、前馈网络、残差连接等。

其中,两个概念尤为关键:“泄漏源”和“终端源”。

“泄漏源”好比中间层的“信号泄漏”,即在信息向前传播的过程中,与回答/拒答决策相关的信号,逐渐偏离了原本与有害语义强绑定的路径。

“终端源”则更为根本,它指的是最终直接影响回答/拒答决策的那部分信号,且这部分信号无法用输入的有害语义来解释。这意味着,安全失败未必发生在“风险识别”阶段,完全可能发生在“识别之后的行为决策”阶段。

这对AI安全实践者是一个重要提醒。过去我们习惯将“识别”和“决策”视为两个独立阶段,但在大模型内部,它们共享同一套神经网络参数。模型可能已准确识别风险,但最终输出仍可能被上下文、格式或其他任务目标带偏。“终端源”就像是拒答主决策链路旁的一条“旁路”。

五、新增Token的风险:开辟新的内部信号通道

论文的第一个实验发现极具启发性:新增的token维度会显著暴露并放大RED

许多越狱攻击都有一个共同点:在原始有害请求之外附加大量token,例如详细的角色设定、场景描述或严格的格式要求。论文通过技术手段将长短不一的提示词对齐到同一语义空间后发现,当引入额外的token维度后,原本在不同模型算子间可能相互抵消的效应被打破,非零的RED便清晰地显现出来。

这是因为新增的token创造了新的内部信号传输通道,使得“泄漏源”和“终端源”的影响能够被有效地传递和放大。

用更通俗的话说,越狱提示词中那些看似冗长的“废话”,不仅是在迷惑模型,更可能在模型内部的高维空间中,增加了可供攻击者操纵的行为自由度。

这对大模型安全评测提出了新要求:不能仅测试模型对简短、直接的有害请求的拒答能力,还必须评估其在长上下文、复杂格式或多轮对话中,拒答边界是否依然稳固。在AI智能体应用场景下,这个问题将更加严峻,因为每一次工具调用或记忆写入,都可能引入新的token维度,从而开辟潜在的逃逸通道。

六、越狱成功往往发生得很早

论文的第二个重要发现是:成功的越狱,其行为转变基本是沿着RED方向发生的,并且与“终端源”高度相关。

研究者在从有害提示词到越狱提示词的连续路径上进行采样,观察模型在何时开始“破防”。结果发现,很多样本在路径演化到一半,甚至仅仅走了5%的时候,就已经越狱成功了。

这说明,最终那个精心设计的越狱提示词,可能并不是触发越狱的全部原因。真正的行为决策转变,在提示词演变的中途就已悄然发生。模型拒答状态的松动,可能远早于攻击的最终呈现形式。

这警示我们,安全监控系统不能只盯着最终的输入和输出。对于多轮对话和AI智能体任务,必须关注模型在整个任务执行链条中的行为,是否出现了逐步的、累积性的安全偏离。

七、安全与可用性的根本冲突

这篇论文还从RED的视角,为那个经典难题——大模型安全性与可用性的冲突——提供了结构性的解释。

在实际产品中,我们常陷入两难:安全策略收紧,误拒率(拒绝正常请求)就升高;策略放松,越狱风险又增大。论文指出,这背后有更深层的原因:要精确消除有害语义区域内的RED,模型共享的表达模块(如自注意力和前馈网络)就必须完成一个近乎不可能的任务——既要抹除有害区域的逃逸方向,又不能损害良性区域的正常回答能力。

如果安全目标和通用能力目标在模型的表征空间里并不完全一致,那么同一组参数就无法同时完美满足两者。换言之,模型的安全能力和通用能力并非两个独立的模块,它们共享同一套“大脑”参数。强化一方,往往就会无意中削弱另一方。这种内在的结构性张力,正是“彻底消除越狱”在工程上极其困难的根源。

八、对新一代安全评测体系的启示

这篇论文最大的工程价值在于,推动安全评测从“枚举和测试已知越狱样本”的范式,转向“系统性评估模型拒答决策边界的稳定性”。

传统的红队测试是基础且必要的,但它主要覆盖已知的攻击模式。RED视角提醒我们,更关键的问题是:在一个已知的有害请求周围,模型是否存在大量语义不变但行为可变的脆弱方向?

基于此,实际的大模型安全评测体系应考虑增强以下几类能力:

1. 新增Token鲁棒性测试:对同一有害意图,不仅测试其简短直接的表达,更要系统测试它在长上下文、复杂格式、角色扮演或多轮交互中的稳定性。

2. 局部扰动稳定性测试:构造一批语义保持但表达各异的改写、扩写或上下文组合样本,观察模型的拒答行为是否容易因这些细微的文本扰动而改变。

3. 过程安全监控:特别是在AI智能体场景中,风险往往是逐步累积形成的。安全系统需要有能力监控模型在整个任务执行过程中的中间状态与行为倾向,而非仅仅审查最终输出。

4. 拒答链路诊断:当发生安全失败(即不应答但答了)时,需诊断其根源是“风险识别失败”还是“决策执行被干扰”。前者需要加强风险识别能力,后者则需要加固行为决策链路的稳定性。

九、研究的边界与未来方向

当然,这篇极具启发性的论文也有其明确的边界,它并未也无意解释所有越狱现象。

首先,其对有害语义的形式化分析基于局部一阶近似,而真实大模型的语义理解是高度非线性且复杂的,可能涉及更复杂的高阶交互效应。

其次,实验中的关键子空间(RED方向)是针对每一对有害-越狱样本单独构建的,这有利于受控分析,但尚未找到一个通用的、样本无关的RED表征方法。

最后,论文目前主要证明了RED的存在与越狱成功之间的强相关性,但尚未通过直接的干预实验(如主动抑制RED)来充分验证其因果关系。

因此,它更像一个强大的机制解释和诊断框架,为后续研究指明了方向,而非一个即插即用的现成防御方案。

十、核心结论与未来展望

这篇论文最值得铭记的核心观点是:越狱攻击所利用的,未必是模型没有识别风险,而是模型在识别风险之后,其内部仍存在从“拒答”滑向“回答”的局部行为通道。

这深刻重塑了我们对AI安全本质的认知。如果仅将安全视为一个输入-输出的分类问题,就会认为只要风险识别够准、输出过滤够严即可。但RED视角告诉我们,模型内部的“回答-拒答”决策边界本身的几何稳固性,同样是一个需要被独立评估和加固的关键维度。

尤其在AI智能体蓬勃发展的时代,模型不再只是静态地回答单次查询,而是在动态、复杂的上下文中进行交互、思考、规划和执行。安全风险也不再仅仅源于一个明确的恶意输入,更可能来自整个任务执行过程中,无数细微的局部状态偏移和行为决策的累积效应。

因此,未来大模型的安全评测,必然要超越“能否拒绝这条提示词”的单一维度。更本质的问题将是:

模型能否在长上下文对话中保持稳定的安全决策边界?
模型能否在多轮复杂任务中确保核心安全目标不发生漂移?
模型能否在工具调用返回和外部信息干扰下,不被新开辟的上下文通道带偏决策?
模型能否在准确识别潜在风险之后,依然坚定、可靠地执行拒答策略?

这篇论文没有给出所有问题的终极答案,但它提供了一个极其宝贵的研究视角:对齐,并非是在模型内部创造一个绝对安全的“孤岛”,而是在其复杂、高维的表征空间中,努力塑造并维护一条稳固的“行为决策边界”。只要这条边界附近还存在可被利用的拒答逃逸方向,攻防双方在AI安全领域的动态博弈就将持续下去。

来源:https://www.51cto.com/article/843576.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。