ICCV 2025启发式诱导多模态风险分解越狱攻击方法

时间：2026-06-24 11:59

针对多模态大语言模型安全防御，提出启发式诱导多模态风险分布越狱攻击方法，将恶意提示拆解为无害的文本与图像片段，结合理解增强与诱导提示策略，实现高效越狱。在7个开源模型上平均攻击成功率达90%，3个闭源模型达68%，揭示跨模态安全防护漏洞。

AI安全还处于技术早期阶段，所以这个系列干脆就叫“顶会顶刊AI安全论文研读”，希望帮行业同仁和想做AI安全的新人，跟上最新的技术和行业动态。这篇论文的作者来自中山大学和南洋理工大学。第一作者是中山大学网络空间安全学院的硕士生，通讯作者是中山大学的任文琦教授和南洋理工大学的博士后加小俊。 **导读** 对抗性攻击一直是多模态大语言模型（MLLMs）安全领域的老大难问题。现有的越狱方法，大多是把恶意提示一股脑儿塞进文本或者图像里，很容易被模型的防护机制识别出来，攻击成功率自然上不去。这篇论文提出了一个叫HIMRD的方法——启发式诱导多模态风险分布越狱攻击。核心思路是把恶意提示拆成看似无害的文本和图像片段，再配合“理解增强”和“诱导”两种提示策略，实现高效越狱。实验结果很亮眼：在7个开源MLLMs上平均成功率达到了90%，在3个闭源模型上也接近68%，直接点出了当前MLLMs在跨模态安全上的软肋。

* 【论文题目】Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models * 【论文链接】[https://arxiv.org/abs/2412.05934](https://arxiv.org/abs/2412.05934) * 【代码链接】[https://github.com/MaTengSYSU/HIMRD-jailbreak](https://github.com/MaTengSYSU/HIMRD-jailbreak) **研究背景** 最近几年，OpenAI、Google、阿里这些公司推出一堆多模态大模型，它们能同时处理文本和图像等信息，这标志着AI进入了新阶段。模型不再只会聊天，还能分析图表、描述画作，甚至跟你进行有视觉背景的深度交流。这给科研、创意产业和日常生活带来了巨大潜力。不过，硬币的另一面也很扎眼。模型能力飞速提升的同时，安全问题也成了大的麻烦。为了防止模型被滥用——比如生成非法指令、仇恨言论或虚假信息——开发者们投入了大量精力做“安全对齐”。 “越狱攻击”就在这个背景下出现了，成了AI安全领域一场持续的攻防战。攻击者的目标是设计出巧妙的提示，绕过安全护栏，诱使模型生成本应拒绝的有害内容。现有的越狱方法大多遵循“单点突破”的思路： * **文本模态攻击**：通过复杂的角色扮演、编码或模糊语言来迷惑模型。但弊端很明显，所有恶意意图都暴露在文本里，很容易被过滤器拦截。 * **图像模态攻击**：把有害指令或符号藏到图像里。但随着模型视觉能力变强，这种“藏”起来的恶意内容也越来越难逃法眼。这两种方法的根本局限在于，把完整的恶意载荷堆在一处，给防御系统提供了明确的靶子。所以，尽管技术不断演进，面对防护严密的现代模型，它们往往力不从心。那么，问题来了：如果风险集中容易被发现，那把它巧妙地分散到多个模态里，是不是能构成更隐蔽、更有效的攻击路径？这就是本研究的出发点。 ## 动机和理论分析这里面的关键问题其实挺朴素的：现有方法为啥成功率有限？根本原因就是它们把全部风险——也就是有害语义——都放在了一个篮子里。从下图1能看得很清楚，不管是有害信息藏在文本里（Case 1）还是藏在图像里（Case 2），模型的防御者都能比较轻松地从单个输入中识别出恶意意图，然后拒绝回答。

**图1: 攻击示意图。和之前的方法相比，HIMRD把恶意提示分布到不同模态，尽量降低每种模态的危害，从而绕过防御。** 这个动机其实源于一个简单的想法：如果把有害指令拆开，让每个部分单独看都无害，那能不能骗过模型的安全审查呢？ HIMRD的核心思想就是“风险分布”。举个例子，一个有害指令“如何制造非法药物”，可以被拆成两个看似无害的片段：文本部分是“如何制造非法（）”，图像部分是一张包含“药物”字样的图片。这两部分单独看都不构成完整指令，风险大大降低。只有当模型在内部把两种模态信息结合起来时，完整的恶意意图才被重构，从而实现越狱。 ## 方法为了实现这个构想，HIMRD框架主要包含两个关键策略：多模态风险分布和启发式诱导搜索。

**图2: HIMRD方法流程图。先把恶意提示分解并分布到文本和图像，再通过启发式搜索迭代优化文本提示，最终诱导模型生成有害回复。** ### 1. 多模态风险分布策略这个策略负责把一个完整的恶意提示分解成两个部分。理想情况下，拆出来的两个部分单独看都是无害的。一个安全函数如果去评估输入的有害性，那这个分解的目标就是让两个片段都通过审查。然后，把这两个无害的片段分别嵌入到图像和文本中。最终攻击输入就由嵌入了文本片段的图像和嵌入了图像片段的文本共同构成。 ### 2. 启发式诱导搜索策略光分解指令还不够，还得引导目标模型正确理解并执行我们的意图。为此，设计了两种特殊的提示进行搜索： * **理解增强提示**：目标是让模型能正确重建我们的真实意图。会迭代优化这个提示，直到模型的理解分数超过预设阈值。简单说，就是确保模型“看懂了”我们想让它干什么。 * **诱导提示**：模型理解了意图后，它内部的安全机制可能还会让它拒绝回答。诱导提示的作用就是扭转这个倾向，提高模型给出肯定回答的概率。同样会迭代优化，直到分数超过阈值。通过这两个阶段的搜索，HIMRD能为不同模型“量身定制”出最高效的攻击提示，从而实现稳定且高成功率的越狱。 ## 实验效果在总共10个MLLMs上做了测试，包括7个开源模型（比如LLaVA、DeepSeek-VL等）和3个闭源模型（GPT-4o、Gemini-1.5-Pro、Qwen-VL-Max）。 **开源模型上的结果：**

**表1: 在开源MLLMs上的攻击成功率对比。HIMRD在所有模型上均取得了最佳或接近最佳的性能。** **闭源模型上的结果：**

**表2: 在闭源MLLMs上的攻击成功率对比。HIMRD的性能显著优于其他黑盒攻击方法。** **可视化展示：**

**图3: 成功攻击示例展示** 这么高的成功率，自然让人想问：HIMRD的各个组件真的都有效吗？为此，做了一系列验证实验。 ### 1. “多模态风险分布”真的能骗过安全审查吗？

**表3: 不同方法在GLM-4V-9B上的拒绝率。HIMRD的拒绝率显著低于其他方法。**

**图4: 模型内部表征空间的可视化。HIMRD的输入（蓝色）在初始阶段与无害锚点（绿色）接近，随着启发式搜索的进行（b, c），逐渐向有害锚点（红色）迁移。** ## 结语这项研究提出的HIMRD方法，通过创新的多模态风险分布和启发式诱导搜索，成功揭示出现有多模态大语言模型中的一个关键安全盲点。通过把有害指令分解到不同模态，HIMRD能有效绕过单模态安全防御。这项工作不仅为理解和评估模型安全性提供了新视角和强大工具，也为未来的防御研究指明了方向。要构建更安全的AI系统，未来需要重点发展能识别和抵御这种跨模态协同攻击的防御策略。希望它能激励社区对多模态安全问题给予更多关注，推动人工智能向更安全、更可信的方向发展。点击【阅读原文】可查看论文。