CVPR 2026 DACO：概念字典对齐实现多模态大模型安全防护

时间：2026-06-23 14:52

针对多模态大语言模型的安全风险，提出DACO方法。构建含15,661概念、40万图文对的DACO-400K字典，推理时通过概念对齐操控激活空间，抑制不合意、增强合意概念，实现不重训高效防御。防御成功率最高达0 990，流畅度和通用性能基本不变。

多模态大语言模型目前的热度无需多言。从通用对话助手到医疗影像诊断，从智能教育工具到科学智能体，几乎每个场景都能见到它的身影。然而，随之而来的安全隐患也不容忽视——一旦模型遭遇恶意图文输入，例如文本层面的越狱提示、图像中的排版触发器、反事实语义图，甚至那些肉眼几乎无法察觉的微小扰动，它就有可能输出有害、违法或违反平台策略的内容。这绝非小事，而是实实在在的安全合规风险。

现有安全策略，如文本提示、响应过滤、微调等方式，各有其局限性。提示类方法一旦场景变化就容易失效；响应过滤需要反复核查，计算开销较大；微调虽然效果不错，但每接入一个新任务就要重新训练，成本居高不下。

那么，有没有一种方法，在不重新训练模型的前提下，仅在推理时对模型的“内部表征”稍作调整，就能兼顾安全性与通用能力？这正是今天要介绍的CVPR 2026论文——DACO（Dictionary-Aligned Concept Control）所要解决的核心问题。简单来说，它构建了一部“概念字典”，并通过这部字典精细操控模型内部的激活空间，使模型在遭遇恶意输入时，能够自动“关闭”有害概念，同时保留有用概念。实验数据显示，其防御成功率最高可达0.990，而模型的流畅度、困惑度、MMMU等通用指标几乎没有下降。

下面我们来一步步拆解这项研究。

研究背景：多模态安全，为何如此棘手？

近年来，多模态大语言模型（MLLMs）发展迅猛，应用范围日益广泛。但正因其能力不断增强，暴露出的安全风险也愈发严峻。

攻击者可以双管齐下：文本侧采用越狱提示（伪装意图、角色扮演、代码注入），图像侧使用排版触发器、反事实语义图像、难以察觉的扰动。两条路径协同攻击，模型的安全防护很容易被绕开。

那现有的防御手段呢？大致分为三类：

文本提示类：如改写、自反思、多智能体协作。优点是灵活，缺点是一遇到分布偏移就失效。
响应审核类：如LLM法官、宪法分类器。优点是精准，缺点是每次响应都要审核一遍，计算开销较大。
后训练类：如微调。优点是效果好，缺点是为每个新任务都得重新训练，成本显而易见。

在此背景下，激活空间操控（activation steering） 逐渐受到关注。它的思路很巧妙：不动模型权重，只在推理时对某些层的激活向量做微调，使模型的隐表示朝安全方向偏移。现有方法大致有两类：一类是基于对比提示做向量加法和正交投影（如ActAdd、OrthProj），另一类是用稀疏自编码器（SAE）将激活分解为概念向量的线性组合。不过，这些方法仍面临三大共性问题：概念覆盖太少、操控强度难以把握、SAE虽然控制力强但语义解读困难。

DACO正是针对这三个问题而设计的。

动机：三大核心瓶颈，逐一攻克

首先是概念覆盖不足。现有非稀疏方法通常只收集不到20个概念向量。这么少的数量，想要精细操控模型的激活空间几乎不可能。而且概念少了，对激活空间几何结构（如聚类性、线性结构）的探索也受到限制，方法的泛化能力自然不够。

其次是操控强度难以校准。力度小了，有害概念压不住，安全目标无法达成；力度大了，模型会变得过度谨慎，把正常用户也拒之门外。如何在安全性与实用性之间找到那个微妙的平衡点？这是现有方法一直未能妥善解决的问题。

第三是SAE缺乏语义基础。SAE解码器提供的特征确实控制力强，但每个特征具体对应什么语义？需要依赖昂贵的探测或人工解读才能确定。这大大限制了它的实用性。

DACO的目标，就是通过构建一个大规模多模态概念字典，将这三个问题一并解决。

方法：DACO是如何实现的？

整个框架分为三个步骤。

第一步：从WordNet到DACO-400K概念字典

研究人员从WordNet中提取了约15,000个同义词集，去重后得到15,661个唯一概念。然后，他们从CC-3M大规模图像-描述对数据集中，为每个概念筛选出正样本和负样本。筛选方式是利用CLIP模型计算两个相似度：概念名称与描述的文本相似度，以及概念名称与图像的图文相似度。最后通过几何聚合，找出最能代表该概念的图文对，以及最不能代表的图文对。

这样，他们构建了一个名为DACO-400K的多模态概念数据集，涵盖自然生物（25.76%）、人物角色（21.91%）、物体（19.98%）等广泛主题，总计包含40万对图文刺激。这为后续的精确操控奠定了坚实基础。

第二步：概念表征与操控

有了概念字典，如何使用？DACO在MLLM解码器的特定层上，通过正负刺激的对比表征，读取每个概念对应的方向向量。接着，利用一个更强的专家MLLM，通过上下文指令，将每个概念标注为“合意”或“不合意”两类。

推理时，对于当前输入的激活向量，DACO采用弹性网稀疏编码将其分解为概念字典中各原子的线性组合。随后，将标注为“不合意”的概念对应的系数清零，相当于从激活中“擦除”有害信息。这就是所谓的多模态斜投影（MOP）。

第三步：用SAE学习一个更优的字典

人工构建的字典已经不错，但还不是最优。DACO进一步优化：将概念字典中的向量作为SAE解码器的初始化，然后在CC-3M的激活数据上训练SAE。这样学出来的原子更加解耦、更高效。

但SAE的原子没有语义标签怎么办？别担心，DACO利用之前构建的概念字典来自动标注。具体做法是：计算每个SAE原子与合意概念簇和不合意概念簇质心的余弦距离，距离足够近，就归入对应类别。这样，SAE原子就有了明确的语义含义。

最后，推理时DACO采用组合方式操控激活：清零不合意原子的贡献，同时放大合意原子的贡献。既精细又高效。

实验：效果究竟如何？

研究人员在三个主流模型上进行了测试：Qwen2.5-VL-7B、LLaVA1.6-Mistral-7B 和 InternVL3.5-8B。基线方法包括无操控、Prompting、ActAdd 和 MOP。

结果令人瞩目。以Qwen2.5-VL-7B为例：

MM-SafetyBench（RoBERTa评判）：DACO达到0.990，MOP次优为0.771
MM-SafetyBench（Qwen3Guard评判）：DACO达到0.984，MOP次优为0.840
JailBreakV-28K（RoBERTa）：DACO达到0.903，MOP次优为0.835
JailBreakV-28K（Qwen3Guard）：DACO达到0.841，MOP次优为0.752

在LLaVA1.6上，MS-QG甚至达到了0.995；在InternVL3.5-8B上，JailBreakV-28K的防御成功率也分别达到0.975和0.970。

而且，DACO并非以牺牲通用能力来换取安全。其Fluency保持在0.88以上，PPL没有明显恶化，MMMU也基本持平。更关键的是，在过度拒绝测试（MOSSBench）中，DACO的表现接近无操控基线，远低于Prompting和ActAdd——这意味着它不会将正常用户也拒之门外。

推理效率方面，DACO每个生成token仅增加14.62%的时间开销，远低于MOP的49.44%，虽然比ActAdd的10.82%略高，但安全性和通用能力的提升幅度使其成为更优的选择。

深入分析：概念字典到底好不好用？

研究人员还进行了概念字典分析。例如，在JailBreakV-28K的对抗查询上，将第19层的激活分解后，Top激活的几个SAE原子，其最近邻概念向量语义高度对齐：原子#10038对应“computer system”，#7858对应“violence”，#13331对应“aggressiveness”。这说明DACO的语义基础相当可靠。

邻居纯度评估也显示，不同阈值下概念的纯度都远高于随机基线，说明概念字典在激活空间中形成了紧密且分离良好的聚类结构。

超参数敏感性分析则提醒我们：概念标注阈值η不能太小也不能太大，太小可操控原子不足，安全性不够；太大则会引入不相关原子，损害通用能力。正向概念强度γ也需要根据具体场景权衡——强度越大安全性越好，但MMMU会同步下降。