游乐游手机版
首页/AI教程/文章详情

CVPR 2025 基于子图像对比分散即关键 多模态大模型越狱攻击研究

时间:2026-06-24 11:59
基于“分心假说”提出对比子图分心越狱框架(CS-DJ),通过查询分解与对比性子图像构建复杂视觉输入,过载多模态大模型安全检测模块。在GPT-4o等主流闭源模型上平均攻击成功率达52 40%,揭示视觉复杂度引发的注意力分散是安全防御的关键弱点。

先聊几段重要的背景。AI安全领域目前仍处于技术发展初期。为此,我们启动了全新的“顶会顶刊AI安全论文研读”系列,旨在帮助行业从业者以及希望进入AI安全领域的新人,及时掌握前沿技术思路和行业动向。本期深度解读的是CVPR 2025的Highlight论文——“分散即关键”,聚焦一种基于子图像对比分散的MLLM越狱攻击方法。

作者团队来自广州大学、阿德莱德大学与上海交通大学,长期致力于多模态大语言模型(MLLM)的安全性问题研究。他们在本文中提出并系统评估了一个新颖的越狱攻击框架——CS-DJ(Contrasting Subimage Distraction Jailbreaking)。

导读

近年来,多模态大语言模型(MLLMs)在融合文本与视觉理解方面取得了显著进步,但安全机制背后也暴露出新的漏洞。[1] 传统的“越狱”攻击通常依赖构造包含有害内容的图像来欺骗模型。然而,随着模型防御能力的持续提升,这类直接攻击的成功率正在逐步下降。

本文的思路独具特色。它提出的对比子图分心越狱(CS-DJ),核心不再是“投毒”,而是“分散注意力”。研究团队发现,相比图像内容本身,视觉输入的复杂度才是绕过安全机制的关键因素。基于这一“分心假说”(Distraction Hypothesis),CS-DJ通过构建复杂的多层级视觉输入,成功“过载”模型的安全检测模块,诱导其输出有害内容。

  • 结构化分心:将有害的文本提问拆解为多个子问题,再将这些子问题转化为图像,从而打散原始的有害意图。
  • 视觉增强分心:在输入中额外拼接多个无关但视觉上形成强烈对比的无害图像,进一步增加模型的处理负担。

大量实验表明,CS-DJ在攻击GPT-4o、GPT-4V和Gemini-1.5-Flash等多种主流闭源MLLMs时,表现十分亮眼。平均攻击成功率(ASR)达到52.40%,在某些模型上提升幅度超过50%。这项工作揭示了MLLMs防御机制中的一个根本性弱点,也为未来的模型安全研究提供了全新视角。论文已开源,感兴趣的读者可以深入探究。

\

【论文题目】Distraction is All You Need for Multimodal Large Language Model Jailbreaking
【论文链接】https://arxiv.org/abs/2502.10794

研究背景

多模态大语言模型(MLLMs),例如GPT-4o、Claude-3.7和Gemini-2.0,通过融合视觉与语言能力,在图像理解、视觉问答等任务上表现优异。但问题在于,它们继承了视觉编码器的脆弱性,容易在对抗样本面前出现失误。对抗样本通过在原始图像上添加人眼难以察觉的微小扰动,就能诱导模型产生错误输出。

对抗攻击分为两类:非靶向攻击(使模型输出错误结果)和靶向攻击(迫使模型输出特定内容)。对于黑盒场景——尤其是商业闭源模型,用户无法访问结构和参数,想要实现高效的靶向迁移攻击,难度相当高。

这意味着,攻击者需要在一个或多个替代模型上生成对抗样本,然后欺骗一个完全未知的黑盒目标模型。现有工作虽然证明了此类攻击的可行性,但迁移成功率,尤其是针对最先进的闭源MLLMs时,仍有很大的提升空间。

MLLMs能够同时处理文本和图像,极大地扩展了AI的应用范围。为了防止模型生成不当或有害内容,研究人员通常会采用基于人类反馈的强化学习(RLHF)等技术进行安全对齐。

但安全机制并非无懈可击。“越狱攻击”正是专门用来绕过这些防护措施的手段。当前针对MLLMs的越狱攻击,主要集中在构造“分布外”(Out-of-Distribution, OOD)的视觉输入上,例如生成带有恶意信息的图片。然而,随着模型见过的图像数据日益增多,构造出真正能欺骗模型的OOD图像,难度也在不断加大。

动机和理论分析

现有攻击方法通常默认:要让模型输出有害内容,输入的图像必须带有一定程度的“有害性”。但本研究通过实验发现,真正起作用的并非图像的内容,而是其复杂度。

这引出全篇的核心——“分心假说”(Distraction Hypothesis):当向MLLM输入一个由多个子图构成的复杂图像时,模型的处理负担会显著增加。这种“过载”会削弱防御机制,使其更容易产生意料之外的(有害)输出。

相比于直接让模型“看”一张有害图片,CS-DJ的策略是让模型去理解一张看起来“杂乱无章、令人困惑”的合成图。这张图包含多个不相关的视觉元素以及由子问题转化而来的图像,这种内在的复杂性和不连贯性分散了模型的注意力。安全检测模块难以聚焦并识别原始的有害意图,越狱攻击就此成功。

\

图1:CSDJ与其他攻击对比示意图

方法

CS-DJ(Contrasting Subimage Distraction Jailbreaking)的设计可以分为三步理解:① 结构化分散(Structured Distraction / query decomposition);② 视觉增强分散(Visual-Enhanced Distraction / multi-subimage construction);③ 复合输入与越狱执行(composite image + prompt 执行)。

\

图2:CSDJ攻击样本生成流程

1)总体框架与设计

CS-DJ的总体流程如图2所示:先使用辅助模型G将原始有害查询Q拆解为若干子查询,然后将这些子查询转换为可视化子图(可以是“文本图像”或检索到的图片),接着检索并挑选与原查询以及彼此之间“最不相似”的对比性子图(contrasting subimages),将这些子图按网格组合成最终的复合图像Icomp,再与一个“看似无害”的多段提示P一起输入受害MLLM。

2)结构化分散:查询分解

为了打散文本端的安全对齐信号,CS-DJ使用一个辅助分解模型G,将原始查询Q分解为m个子查询。之后,每个子查询通过变换函数T(·)转换,变成对应的“文本图像”或可视化片段(论文中采用Super Moods字体渲染文本后保存为图片)。

这种将文本碎片以视觉化子片段呈现的做法,一方面改变了模态(text→image),另一方面在输入中制造了“结构性分散”——模型需要同时处理多条并列任务,从而降低对单一有害意图的聚焦能力。消融实验也证实,适度的分解(例如m=3)能明显提高整体的越狱成功率。

3)视觉增强分散:多子图像构造与检索

最大化视觉端的分散,是CS-DJ的核心。论文将问题简化为一个图像检索问题:先用CLIP将查询编码为密集向量,然后从图像集合D中检索与查询最不相似的图像,作为首个子图。

为保证子图之间也彼此“对比”(互相分散),论文采用逐步检索的近似策略——在检索第j个子图时,同时考虑与查询和已选子图的相似度累加项。通过这一策略,选出的k个子图在语义向量空间上尽量远离原查询且互相远离,从而构建出高“互相干扰”的视觉组合。

子图组合与排版细节

为了让复合图像保持相对稳定的纵横比与编码能力,论文采用固定列数(例如3列)并通过增加行数来控制子图数量;子图渲染分辨率与字体渲染细节(子查询文本作为图像时使用Super Moods、红色50pt字体;每个子图网格渲染为500×500像素)也在实现细节中列出。这些实现细节对最终效果有明显影响。

4)复合输入构成与越狱执行

将构造好的k个检索子图和m个文本化子图组合,最终得到复合图像。最后,将这个复合图像与精心设计的“无害”指令P一起输入MLLM。

提示P在论文中被分为三段:role-guiding(设定角色/场景)、task-guiding(要求同时完成多个子任务以分散注意力)、visual-guiding(提示“可能有其它图像有用”以进一步误导)。

5)分散度量:Distraction Distance

为了量化构建的复合输入在向量空间中的“分散性”,论文提出了Distraction Distance指标。将查询与所有子图视为N个节点,每个节点用CLIP编码向量表示,Distraction Distance则计算为所有节点两两L2距离之和。该值越大,表示整体输入在语义空间中越“分散”。论文通过实验证明,在保持其他条件不变时,Distraction Distance与越狱成功率(ASR)总体呈正相关。

实验效果

核心实验结果对比

\

表1:CS-DJ与基线方法Hades在四种闭源MLLM上的攻击成功率和集成攻击成功率对比

表1展示了CS-DJ框架与基线方法Hades在四种闭源多模态大模型上的攻击表现:GPT-4o-Mini、GPT-4o、GPT-4V、Gemini-1.5-Flash。

CS-DJ的平均攻击成功率(ASR)达到52.40%,集成攻击成功率(EASR)达到74.10%,明显超越Hades的37.20%和62.75%。Gemini-1.5-Flash对CS-DJ攻击最为敏感(ASR 53.2%),而GPT-4V在Hades测试中防御最强(ASR 42.3%)。值得注意的是,通过多次尝试的集成攻击策略,CS-DJ的EASR提升了21.7%,证明了其攻击的鲁棒性较强。

消融实验

\

表2:查询分解数量对攻击成功率的影响

如表2所示,论文系统测试了将原始有害查询分解成不同数量子查询(3/6/9个)时对GPT-4o攻击成功率的变化。分解成6个子查询时效果最佳(平均ASR 45.26%),比未分解的直接查询提升30.72%。但过度分解到9个子查询时,由于任务复杂度超出模型处理能力,ASR反而下降至41.86%。这说明,结构化干扰需要在注意力分散与语义连贯性之间找到平衡点。

\

表3:视觉子图像选择策略的干扰效果对比

该表对比了三种视觉子图像构建策略:单一相似图像(9SinSI)、9张相似图像(9SSI)和9张对比图像(9CSI)。结果非常清晰,采用对比性子图像的9CSI策略以54.0%的ASR大幅领先,其干扰距离(24.9)是相似图像策略的1.6倍。这一实验说明,最大化视觉元素的差异性,是分散模型安全机制的关键——例如在隐私类攻击中,同时输入风景图与建筑照片产生的认知冲突,能有效掩盖文本的危害性。

\

表4:噪声图像与信息复杂度的影响验证

通过对比噪声图像(9RNI)与对比性子图像(9CSI)的表现,表4指出噪声图像由于信息复杂度不足,ASR仅为34.8%,接近无视觉干扰的基线(34.1%),远低于9CSI的54.0%。这反向验证了论文的核心假设——只有高复杂度的视觉内容才能有效分散模型注意力;单纯增加图像数量而没有信息密度,是无法突破安全防线的。

表5:多级指令组合的协同增强效应

如表5所示,论文量化了指令设计中三个组件的增量贡献:仅任务引导时ASR为42.3%,加入角色引导(例如设定模型为“安防顾问”)后提升至50.0%,最终结合视觉误导提示(声称子图像里有关键线索)时ASR达到了54.0%。这种阶梯式增长说明,角色设定制造认知偏差、虚假视觉线索诱导注意力转移的策略,能够协同强化模型对有害内容的盲区。

结语

一句话总结:本文提出的基于注意力分散假设的CS-DJ框架,通过查询分解与对比子图像的双路径干扰策略,成功突破了多模态大模型的安全防线。实验表明,该方法在GPT-4o等主流模型上实现了52.40%的平均攻击成功率,揭示了视觉复杂度引发的注意力分散,正是安全防御的一道关键裂缝。这项研究也在提醒我们:高复杂度的多模态输入,可能瓦解RLHF对齐机制,为黑盒越狱攻击提供了一种全新的范式。

来源:https://cloud.tencent.com.cn/developer/article/2695267
上一篇ICCV 2025启发式诱导多模态风险分解越狱攻击方法 下一篇ICCV 2025 彩色补丁引发机器人视觉欺骗
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网