多模态大语言模型目前的热度无需多言。从通用对话助手到医疗影像诊断,从智能教育工具到科学智能体,几乎每个场景都能见到它的身影。然而,随之而来的安全隐患也不容忽视——一旦模型遭遇恶意图文输入,例如文本层面的越狱提示、图像中的排版触发器、反事实语义图,甚至那些肉眼几乎无法察觉的微小扰动,它就有可能输出有害、违法或违反平台策略的内容。这绝非小事,而是实实在在的安全合规风险。
现有安全策略,如文本提示、响应过滤、微调等方式,各有其局限性。提示类方法一旦场景变化就容易失效;响应过滤需要反复核查,计算开销较大;微调虽然效果不错,但每接入一个新任务就要重新训练,成本居高不下。
那么,有没有一种方法,在不重新训练模型的前提下,仅在推理时对模型的“内部表征”稍作调整,就能兼顾安全性与通用能力?这正是今天要介绍的CVPR 2026论文——DACO(Dictionary-Aligned Concept Control)所要解决的核心问题。简单来说,它构建了一部“概念字典”,并通过这部字典精细操控模型内部的激活空间,使模型在遭遇恶意输入时,能够自动“关闭”有害概念,同时保留有用概念。实验数据显示,其防御成功率最高可达0.990,而模型的流畅度、困惑度、MMMU等通用指标几乎没有下降。
下面我们来一步步拆解这项研究。
研究背景:多模态安全,为何如此棘手?
近年来,多模态大语言模型(MLLMs)发展迅猛,应用范围日益广泛。但正因其能力不断增强,暴露出的安全风险也愈发严峻。
攻击者可以双管齐下:文本侧采用越狱提示(伪装意图、角色扮演、代码注入),图像侧使用排版触发器、反事实语义图像、难以察觉的扰动。两条路径协同攻击,模型的安全防护很容易被绕开。
那现有的防御手段呢?大致分为三类:
- 文本提示类:如改写、自反思、多智能体协作。优点是灵活,缺点是一遇到分布偏移就失效。
- 响应审核类:如LLM法官、宪法分类器。优点是精准,缺点是每次响应都要审核一遍,计算开销较大。
- 后训练类:如微调。优点是效果好,缺点是为每个新任务都得重新训练,成本显而易见。
在此背景下,激活空间操控(activation steering) 逐渐受到关注。它的思路很巧妙:不动模型权重,只在推理时对某些层的激活向量做微调,使模型的隐表示朝安全方向偏移。现有方法大致有两类:一类是基于对比提示做向量加法和正交投影(如ActAdd、OrthProj),另一类是用稀疏自编码器(SAE)将激活分解为概念向量的线性组合。不过,这些方法仍面临三大共性问题:概念覆盖太少、操控强度难以把握、SAE虽然控制力强但语义解读困难。
DACO正是针对这三个问题而设计的。
动机:三大核心瓶颈,逐一攻克
首先是概念覆盖不足。现有非稀疏方法通常只收集不到20个概念向量。这么少的数量,想要精细操控模型的激活空间几乎不可能。而且概念少了,对激活空间几何结构(如聚类性、线性结构)的探索也受到限制,方法的泛化能力自然不够。
其次是操控强度难以校准。力度小了,有害概念压不住,安全目标无法达成;力度大了,模型会变得过度谨慎,把正常用户也拒之门外。如何在安全性与实用性之间找到那个微妙的平衡点?这是现有方法一直未能妥善解决的问题。
第三是SAE缺乏语义基础。SAE解码器提供的特征确实控制力强,但每个特征具体对应什么语义?需要依赖昂贵的探测或人工解读才能确定。这大大限制了它的实用性。
DACO的目标,就是通过构建一个大规模多模态概念字典,将这三个问题一并解决。
方法:DACO是如何实现的?
整个框架分为三个步骤。
第一步:从WordNet到DACO-400K概念字典
研究人员从WordNet中提取了约15,000个同义词集,去重后得到15,661个唯一概念。然后,他们从CC-3M大规模图像-描述对数据集中,为每个概念筛选出正样本和负样本。筛选方式是利用CLIP模型计算两个相似度:概念名称与描述的文本相似度,以及概念名称与图像的图文相似度。最后通过几何聚合,找出最能代表该概念的图文对,以及最不能代表的图文对。
这样,他们构建了一个名为DACO-400K的多模态概念数据集,涵盖自然生物(25.76%)、人物角色(21.91%)、物体(19.98%)等广泛主题,总计包含40万对图文刺激。这为后续的精确操控奠定了坚实基础。
第二步:概念表征与操控
有了概念字典,如何使用?DACO在MLLM解码器的特定层上,通过正负刺激的对比表征,读取每个概念对应的方向向量。接着,利用一个更强的专家MLLM,通过上下文指令,将每个概念标注为“合意”或“不合意”两类。
推理时,对于当前输入的激活向量,DACO采用弹性网稀疏编码将其分解为概念字典中各原子的线性组合。随后,将标注为“不合意”的概念对应的系数清零,相当于从激活中“擦除”有害信息。这就是所谓的多模态斜投影(MOP)。
第三步:用SAE学习一个更优的字典
人工构建的字典已经不错,但还不是最优。DACO进一步优化:将概念字典中的向量作为SAE解码器的初始化,然后在CC-3M的激活数据上训练SAE。这样学出来的原子更加解耦、更高效。
但SAE的原子没有语义标签怎么办?别担心,DACO利用之前构建的概念字典来自动标注。具体做法是:计算每个SAE原子与合意概念簇和不合意概念簇质心的余弦距离,距离足够近,就归入对应类别。这样,SAE原子就有了明确的语义含义。
最后,推理时DACO采用组合方式操控激活:清零不合意原子的贡献,同时放大合意原子的贡献。既精细又高效。
实验:效果究竟如何?
研究人员在三个主流模型上进行了测试:Qwen2.5-VL-7B、LLaVA1.6-Mistral-7B 和 InternVL3.5-8B。基线方法包括无操控、Prompting、ActAdd 和 MOP。
结果令人瞩目。以Qwen2.5-VL-7B为例:
- MM-SafetyBench(RoBERTa评判):DACO达到0.990,MOP次优为0.771
- MM-SafetyBench(Qwen3Guard评判):DACO达到0.984,MOP次优为0.840
- JailBreakV-28K(RoBERTa):DACO达到0.903,MOP次优为0.835
- JailBreakV-28K(Qwen3Guard):DACO达到0.841,MOP次优为0.752
在LLaVA1.6上,MS-QG甚至达到了0.995;在InternVL3.5-8B上,JailBreakV-28K的防御成功率也分别达到0.975和0.970。
而且,DACO并非以牺牲通用能力来换取安全。其Fluency保持在0.88以上,PPL没有明显恶化,MMMU也基本持平。更关键的是,在过度拒绝测试(MOSSBench)中,DACO的表现接近无操控基线,远低于Prompting和ActAdd——这意味着它不会将正常用户也拒之门外。
推理效率方面,DACO每个生成token仅增加14.62%的时间开销,远低于MOP的49.44%,虽然比ActAdd的10.82%略高,但安全性和通用能力的提升幅度使其成为更优的选择。
深入分析:概念字典到底好不好用?
研究人员还进行了概念字典分析。例如,在JailBreakV-28K的对抗查询上,将第19层的激活分解后,Top激活的几个SAE原子,其最近邻概念向量语义高度对齐:原子#10038对应“computer system”,#7858对应“violence”,#13331对应“aggressiveness”。这说明DACO的语义基础相当可靠。
邻居纯度评估也显示,不同阈值下概念的纯度都远高于随机基线,说明概念字典在激活空间中形成了紧密且分离良好的聚类结构。
超参数敏感性分析则提醒我们:概念标注阈值η不能太小也不能太大,太小可操控原子不足,安全性不够;太大则会引入不相关原子,损害通用能力。正向概念强度γ也需要根据具体场景权衡——强度越大安全性越好,但MMMU会同步下降。
结语:一条前景广阔的技术路径
DACO的核心贡献可概括为三点:
- 构建了DACO-400K——一个包含15,661个概念、40万对图文刺激的多模态概念数据集;
- 将概念字典同时用于多模态激活的稀疏编码、SAE训练初始化和原子语义自动标注,实现了推理时的精细化激活操控;
- 通过组合式操控策略,对激活的不合意和合意分量分别进行抑制与增强。
实验结果证明,这一思路可行且效果显著。未来工作将在更多模态、更大规模模型上验证泛化性,并探索概念字典在模型可解释性分析中的更多应用。
可以说,在AI安全这一技术仍处于早期阶段的领域,DACO为多模态大模型的安全防护开辟了一条新路径。无需重训、不依赖外部审核,仅在推理时进行一点“概念清理”,就能让模型既安全又智能。这个方向,值得持续关注。
