CVPR 2025 基于子图像对比分散即关键多模态大模型越狱攻击研究

时间：2026-06-24 11:59

基于“分心假说”提出对比子图分心越狱框架（CS-DJ），通过查询分解与对比性子图像构建复杂视觉输入，过载多模态大模型安全检测模块。在GPT-4o等主流闭源模型上平均攻击成功率达52 40%，揭示视觉复杂度引发的注意力分散是安全防御的关键弱点。

先聊几段重要的背景。AI安全领域目前仍处于技术发展初期。为此，我们启动了全新的“顶会顶刊AI安全论文研读”系列，旨在帮助行业从业者以及希望进入AI安全领域的新人，及时掌握前沿技术思路和行业动向。本期深度解读的是CVPR 2025的Highlight论文——“分散即关键”，聚焦一种基于子图像对比分散的MLLM越狱攻击方法。

作者团队来自广州大学、阿德莱德大学与上海交通大学，长期致力于多模态大语言模型（MLLM）的安全性问题研究。他们在本文中提出并系统评估了一个新颖的越狱攻击框架——CS-DJ（Contrasting Subimage Distraction Jailbreaking）。

导读

近年来，多模态大语言模型（MLLMs）在融合文本与视觉理解方面取得了显著进步，但安全机制背后也暴露出新的漏洞。[1] 传统的“越狱”攻击通常依赖构造包含有害内容的图像来欺骗模型。然而，随着模型防御能力的持续提升，这类直接攻击的成功率正在逐步下降。

本文的思路独具特色。它提出的对比子图分心越狱（CS-DJ），核心不再是“投毒”，而是“分散注意力”。研究团队发现，相比图像内容本身，视觉输入的复杂度才是绕过安全机制的关键因素。基于这一“分心假说”（Distraction Hypothesis），CS-DJ通过构建复杂的多层级视觉输入，成功“过载”模型的安全检测模块，诱导其输出有害内容。

结构化分心：将有害的文本提问拆解为多个子问题，再将这些子问题转化为图像，从而打散原始的有害意图。
视觉增强分心：在输入中额外拼接多个无关但视觉上形成强烈对比的无害图像，进一步增加模型的处理负担。

大量实验表明，CS-DJ在攻击GPT-4o、GPT-4V和Gemini-1.5-Flash等多种主流闭源MLLMs时，表现十分亮眼。平均攻击成功率（ASR）达到52.40%，在某些模型上提升幅度超过50%。这项工作揭示了MLLMs防御机制中的一个根本性弱点，也为未来的模型安全研究提供了全新视角。论文已开源，感兴趣的读者可以深入探究。

【论文题目】Distraction is All You Need for Multimodal Large Language Model Jailbreaking
【论文链接】https://arxiv.org/abs/2502.10794

研究背景

多模态大语言模型（MLLMs），例如GPT-4o、Claude-3.7和Gemini-2.0，通过融合视觉与语言能力，在图像理解、视觉问答等任务上表现优异。但问题在于，它们继承了视觉编码器的脆弱性，容易在对抗样本面前出现失误。对抗样本通过在原始图像上添加人眼难以察觉的微小扰动，就能诱导模型产生错误输出。

对抗攻击分为两类：非靶向攻击（使模型输出错误结果）和靶向攻击（迫使模型输出特定内容）。对于黑盒场景——尤其是商业闭源模型，用户无法访问结构和参数，想要实现高效的靶向迁移攻击，难度相当高。

这意味着，攻击者需要在一个或多个替代模型上生成对抗样本，然后欺骗一个完全未知的黑盒目标模型。现有工作虽然证明了此类攻击的可行性，但迁移成功率，尤其是针对最先进的闭源MLLMs时，仍有很大的提升空间。

MLLMs能够同时处理文本和图像，极大地扩展了AI的应用范围。为了防止模型生成不当或有害内容，研究人员通常会采用基于人类反馈的强化学习（RLHF）等技术进行安全对齐。

但安全机制并非无懈可击。“越狱攻击”正是专门用来绕过这些防护措施的手段。当前针对MLLMs的越狱攻击，主要集中在构造“分布外”（Out-of-Distribution, OOD）的视觉输入上，例如生成带有恶意信息的图片。然而，随着模型见过的图像数据日益增多，构造出真正能欺骗模型的OOD图像，难度也在不断加大。

动机和理论分析

现有攻击方法通常默认：要让模型输出有害内容，输入的图像必须带有一定程度的“有害性”。但本研究通过实验发现，真正起作用的并非图像的内容，而是其复杂度。

这引出全篇的核心——“分心假说”（Distraction Hypothesis）：当向MLLM输入一个由多个子图构成的复杂图像时，模型的处理负担会显著增加。这种“过载”会削弱防御机制，使其更容易产生意料之外的（有害）输出。

相比于直接让模型“看”一张有害图片，CS-DJ的策略是让模型去理解一张看起来“杂乱无章、令人困惑”的合成图。这张图包含多个不相关的视觉元素以及由子问题转化而来的图像，这种内在的复杂性和不连贯性分散了模型的注意力。安全检测模块难以聚焦并识别原始的有害意图，越狱攻击就此成功。

图1:CSDJ与其他攻击对比示意图

方法

CS-DJ（Contrasting Subimage Distraction Jailbreaking）的设计可以分为三步理解：① 结构化分散（Structured Distraction / query decomposition）；② 视觉增强分散（Visual-Enhanced Distraction / multi-subimage construction）；③ 复合输入与越狱执行（composite image + prompt 执行）。

图2:CSDJ攻击样本生成流程

1）总体框架与设计

CS-DJ的总体流程如图2所示：先使用辅助模型G将原始有害查询Q拆解为若干子查询，然后将这些子查询转换为可视化子图（可以是“文本图像”或检索到的图片），接着检索并挑选与原查询以及彼此之间“最不相似”的对比性子图（contrasting subimages），将这些子图按网格组合成最终的复合图像Icomp，再与一个“看似无害”的多段提示P一起输入受害MLLM。

2）结构化分散：查询分解

为了打散文本端的安全对齐信号，CS-DJ使用一个辅助分解模型G，将原始查询Q分解为m个子查询。之后，每个子查询通过变换函数T(·)转换，变成对应的“文本图像”或可视化片段（论文中采用Super Moods字体渲染文本后保存为图片）。

这种将文本碎片以视觉化子片段呈现的做法，一方面改变了模态（text→image），另一方面在输入中制造了“结构性分散”——模型需要同时处理多条并列任务，从而降低对单一有害意图的聚焦能力。消融实验也证实，适度的分解（例如m=3）能明显提高整体的越狱成功率。

3）视觉增强分散：多子图像构造与检索

最大化视觉端的分散，是CS-DJ的核心。论文将问题简化为一个图像检索问题：先用CLIP将查询编码为密集向量，然后从图像集合D中检索与查询最不相似的图像，作为首个子图。

为保证子图之间也彼此“对比”（互相分散），论文采用逐步检索的近似策略——在检索第j个子图时，同时考虑与查询和已选子图的相似度累加项。通过这一策略，选出的k个子图在语义向量空间上尽量远离原查询且互相远离，从而构建出高“互相干扰”的视觉组合。

子图组合与排版细节

为了让复合图像保持相对稳定的纵横比与编码能力，论文采用固定列数（例如3列）并通过增加行数来控制子图数量；子图渲染分辨率与字体渲染细节（子查询文本作为图像时使用Super Moods、红色50pt字体；每个子图网格渲染为500×500像素）也在实现细节中列出。这些实现细节对最终效果有明显影响。

4）复合输入构成与越狱执行

将构造好的k个检索子图和m个文本化子图组合，最终得到复合图像。最后，将这个复合图像与精心设计的“无害”指令P一起输入MLLM。

提示P在论文中被分为三段：role-guiding（设定角色/场景）、task-guiding（要求同时完成多个子任务以分散注意力）、visual-guiding（提示“可能有其它图像有用”以进一步误导）。

5）分散度量：Distraction Distance

为了量化构建的复合输入在向量空间中的“分散性”，论文提出了Distraction Distance指标。将查询与所有子图视为N个节点，每个节点用CLIP编码向量表示，Distraction Distance则计算为所有节点两两L2距离之和。该值越大，表示整体输入在语义空间中越“分散”。论文通过实验证明，在保持其他条件不变时，Distraction Distance与越狱成功率（ASR）总体呈正相关。

实验效果

核心实验结果对比

表1：CS-DJ与基线方法Hades在四种闭源MLLM上的攻击成功率和集成攻击成功率对比

表1展示了CS-DJ框架与基线方法Hades在四种闭源多模态大模型上的攻击表现：GPT-4o-Mini、GPT-4o、GPT-4V、Gemini-1.5-Flash。

CS-DJ的平均攻击成功率（ASR）达到52.40%，集成攻击成功率（EASR）达到74.10%，明显超越Hades的37.20%和62.75%。Gemini-1.5-Flash对CS-DJ攻击最为敏感（ASR 53.2%），而GPT-4V在Hades测试中防御最强（ASR 42.3%）。值得注意的是，通过多次尝试的集成攻击策略，CS-DJ的EASR提升了21.7%，证明了其攻击的鲁棒性较强。

消融实验

表2：查询分解数量对攻击成功率的影响

如表2所示，论文系统测试了将原始有害查询分解成不同数量子查询（3/6/9个）时对GPT-4o攻击成功率的变化。分解成6个子查询时效果最佳（平均ASR 45.26%），比未分解的直接查询提升30.72%。但过度分解到9个子查询时，由于任务复杂度超出模型处理能力，ASR反而下降至41.86%。这说明，结构化干扰需要在注意力分散与语义连贯性之间找到平衡点。

表3：视觉子图像选择策略的干扰效果对比

该表对比了三种视觉子图像构建策略：单一相似图像（9SinSI）、9张相似图像（9SSI）和9张对比图像（9CSI）。结果非常清晰，采用对比性子图像的9CSI策略以54.0%的ASR大幅领先，其干扰距离（24.9）是相似图像策略的1.6倍。这一实验说明，最大化视觉元素的差异性，是分散模型安全机制的关键——例如在隐私类攻击中，同时输入风景图与建筑照片产生的认知冲突，能有效掩盖文本的危害性。

表4：噪声图像与信息复杂度的影响验证

通过对比噪声图像（9RNI）与对比性子图像（9CSI）的表现，表4指出噪声图像由于信息复杂度不足，ASR仅为34.8%，接近无视觉干扰的基线（34.1%），远低于9CSI的54.0%。这反向验证了论文的核心假设——只有高复杂度的视觉内容才能有效分散模型注意力；单纯增加图像数量而没有信息密度，是无法突破安全防线的。

表5：多级指令组合的协同增强效应

如表5所示，论文量化了指令设计中三个组件的增量贡献：仅任务引导时ASR为42.3%，加入角色引导（例如设定模型为“安防顾问”）后提升至50.0%，最终结合视觉误导提示（声称子图像里有关键线索）时ASR达到了54.0%。这种阶梯式增长说明，角色设定制造认知偏差、虚假视觉线索诱导注意力转移的策略，能够协同强化模型对有害内容的盲区。

结语

一句话总结：本文提出的基于注意力分散假设的CS-DJ框架，通过查询分解与对比子图像的双路径干扰策略，成功突破了多模态大模型的安全防线。实验表明，该方法在GPT-4o等主流模型上实现了52.40%的平均攻击成功率，揭示了视觉复杂度引发的注意力分散，正是安全防御的一道关键裂缝。这项研究也在提醒我们：高复杂度的多模态输入，可能瓦解RLHF对齐机制，为黑盒越狱攻击提供了一种全新的范式。

来源：https://cloud.tencent.com.cn/developer/article/2695267

多模态大模型

上一篇ICCV 2025启发式诱导多模态风险分解越狱攻击方法 下一篇ICCV 2025 彩色补丁引发机器人视觉欺骗

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。