游乐游手机版
首页/AI教程/文章详情

CVPR 2026 DACO:概念字典对齐实现多模态大模型安全防护

时间:2026-06-23 14:52
针对多模态大语言模型的安全风险,提出DACO方法。构建含15,661概念、40万图文对的DACO-400K字典,推理时通过概念对齐操控激活空间,抑制不合意、增强合意概念,实现不重训高效防御。防御成功率最高达0 990,流畅度和通用性能基本不变。

多模态大语言模型目前的热度无需多言。从通用对话助手到医疗影像诊断,从智能教育工具到科学智能体,几乎每个场景都能见到它的身影。然而,随之而来的安全隐患也不容忽视——一旦模型遭遇恶意图文输入,例如文本层面的越狱提示、图像中的排版触发器、反事实语义图,甚至那些肉眼几乎无法察觉的微小扰动,它就有可能输出有害、违法或违反平台策略的内容。这绝非小事,而是实实在在的安全合规风险。

现有安全策略,如文本提示、响应过滤、微调等方式,各有其局限性。提示类方法一旦场景变化就容易失效;响应过滤需要反复核查,计算开销较大;微调虽然效果不错,但每接入一个新任务就要重新训练,成本居高不下。

那么,有没有一种方法,在不重新训练模型的前提下,仅在推理时对模型的“内部表征”稍作调整,就能兼顾安全性与通用能力?这正是今天要介绍的CVPR 2026论文——DACO(Dictionary-Aligned Concept Control)所要解决的核心问题。简单来说,它构建了一部“概念字典”,并通过这部字典精细操控模型内部的激活空间,使模型在遭遇恶意输入时,能够自动“关闭”有害概念,同时保留有用概念。实验数据显示,其防御成功率最高可达0.990,而模型的流畅度、困惑度、MMMU等通用指标几乎没有下降。

下面我们来一步步拆解这项研究。

研究背景:多模态安全,为何如此棘手?

近年来,多模态大语言模型(MLLMs)发展迅猛,应用范围日益广泛。但正因其能力不断增强,暴露出的安全风险也愈发严峻。

攻击者可以双管齐下:文本侧采用越狱提示(伪装意图、角色扮演、代码注入),图像侧使用排版触发器、反事实语义图像、难以察觉的扰动。两条路径协同攻击,模型的安全防护很容易被绕开。

那现有的防御手段呢?大致分为三类:

  • 文本提示类:如改写、自反思、多智能体协作。优点是灵活,缺点是一遇到分布偏移就失效。
  • 响应审核类:如LLM法官、宪法分类器。优点是精准,缺点是每次响应都要审核一遍,计算开销较大。
  • 后训练类:如微调。优点是效果好,缺点是为每个新任务都得重新训练,成本显而易见。

在此背景下,激活空间操控(activation steering) 逐渐受到关注。它的思路很巧妙:不动模型权重,只在推理时对某些层的激活向量做微调,使模型的隐表示朝安全方向偏移。现有方法大致有两类:一类是基于对比提示做向量加法和正交投影(如ActAdd、OrthProj),另一类是用稀疏自编码器(SAE)将激活分解为概念向量的线性组合。不过,这些方法仍面临三大共性问题:概念覆盖太少、操控强度难以把握、SAE虽然控制力强但语义解读困难

DACO正是针对这三个问题而设计的。

动机:三大核心瓶颈,逐一攻克

首先是概念覆盖不足。现有非稀疏方法通常只收集不到20个概念向量。这么少的数量,想要精细操控模型的激活空间几乎不可能。而且概念少了,对激活空间几何结构(如聚类性、线性结构)的探索也受到限制,方法的泛化能力自然不够。

其次是操控强度难以校准。力度小了,有害概念压不住,安全目标无法达成;力度大了,模型会变得过度谨慎,把正常用户也拒之门外。如何在安全性与实用性之间找到那个微妙的平衡点?这是现有方法一直未能妥善解决的问题。

第三是SAE缺乏语义基础。SAE解码器提供的特征确实控制力强,但每个特征具体对应什么语义?需要依赖昂贵的探测或人工解读才能确定。这大大限制了它的实用性。

DACO的目标,就是通过构建一个大规模多模态概念字典,将这三个问题一并解决。

方法:DACO是如何实现的?

整个框架分为三个步骤。

第一步:从WordNet到DACO-400K概念字典

研究人员从WordNet中提取了约15,000个同义词集,去重后得到15,661个唯一概念。然后,他们从CC-3M大规模图像-描述对数据集中,为每个概念筛选出正样本和负样本。筛选方式是利用CLIP模型计算两个相似度:概念名称与描述的文本相似度,以及概念名称与图像的图文相似度。最后通过几何聚合,找出最能代表该概念的图文对,以及最不能代表的图文对。

这样,他们构建了一个名为DACO-400K的多模态概念数据集,涵盖自然生物(25.76%)、人物角色(21.91%)、物体(19.98%)等广泛主题,总计包含40万对图文刺激。这为后续的精确操控奠定了坚实基础。

第二步:概念表征与操控

有了概念字典,如何使用?DACO在MLLM解码器的特定层上,通过正负刺激的对比表征,读取每个概念对应的方向向量。接着,利用一个更强的专家MLLM,通过上下文指令,将每个概念标注为“合意”或“不合意”两类。

推理时,对于当前输入的激活向量,DACO采用弹性网稀疏编码将其分解为概念字典中各原子的线性组合。随后,将标注为“不合意”的概念对应的系数清零,相当于从激活中“擦除”有害信息。这就是所谓的多模态斜投影(MOP)

第三步:用SAE学习一个更优的字典

人工构建的字典已经不错,但还不是最优。DACO进一步优化:将概念字典中的向量作为SAE解码器的初始化,然后在CC-3M的激活数据上训练SAE。这样学出来的原子更加解耦、更高效。

但SAE的原子没有语义标签怎么办?别担心,DACO利用之前构建的概念字典来自动标注。具体做法是:计算每个SAE原子与合意概念簇和不合意概念簇质心的余弦距离,距离足够近,就归入对应类别。这样,SAE原子就有了明确的语义含义。

最后,推理时DACO采用组合方式操控激活:清零不合意原子的贡献,同时放大合意原子的贡献。既精细又高效。

实验:效果究竟如何?

研究人员在三个主流模型上进行了测试:Qwen2.5-VL-7B、LLaVA1.6-Mistral-7B 和 InternVL3.5-8B。基线方法包括无操控、Prompting、ActAdd 和 MOP。

结果令人瞩目。以Qwen2.5-VL-7B为例:

  • MM-SafetyBench(RoBERTa评判):DACO达到0.990,MOP次优为0.771
  • MM-SafetyBench(Qwen3Guard评判):DACO达到0.984,MOP次优为0.840
  • JailBreakV-28K(RoBERTa):DACO达到0.903,MOP次优为0.835
  • JailBreakV-28K(Qwen3Guard):DACO达到0.841,MOP次优为0.752

在LLaVA1.6上,MS-QG甚至达到了0.995;在InternVL3.5-8B上,JailBreakV-28K的防御成功率也分别达到0.975和0.970。

而且,DACO并非以牺牲通用能力来换取安全。其Fluency保持在0.88以上,PPL没有明显恶化,MMMU也基本持平。更关键的是,在过度拒绝测试(MOSSBench)中,DACO的表现接近无操控基线,远低于Prompting和ActAdd——这意味着它不会将正常用户也拒之门外。

推理效率方面,DACO每个生成token仅增加14.62%的时间开销,远低于MOP的49.44%,虽然比ActAdd的10.82%略高,但安全性和通用能力的提升幅度使其成为更优的选择。

深入分析:概念字典到底好不好用?

研究人员还进行了概念字典分析。例如,在JailBreakV-28K的对抗查询上,将第19层的激活分解后,Top激活的几个SAE原子,其最近邻概念向量语义高度对齐:原子#10038对应“computer system”,#7858对应“violence”,#13331对应“aggressiveness”。这说明DACO的语义基础相当可靠。

邻居纯度评估也显示,不同阈值下概念的纯度都远高于随机基线,说明概念字典在激活空间中形成了紧密且分离良好的聚类结构。

超参数敏感性分析则提醒我们:概念标注阈值η不能太小也不能太大,太小可操控原子不足,安全性不够;太大则会引入不相关原子,损害通用能力。正向概念强度γ也需要根据具体场景权衡——强度越大安全性越好,但MMMU会同步下降。

结语:一条前景广阔的技术路径

DACO的核心贡献可概括为三点:

  1. 构建了DACO-400K——一个包含15,661个概念、40万对图文刺激的多模态概念数据集;
  2. 将概念字典同时用于多模态激活的稀疏编码、SAE训练初始化和原子语义自动标注,实现了推理时的精细化激活操控;
  3. 通过组合式操控策略,对激活的不合意和合意分量分别进行抑制与增强。

实验结果证明,这一思路可行且效果显著。未来工作将在更多模态、更大规模模型上验证泛化性,并探索概念字典在模型可解释性分析中的更多应用。

可以说,在AI安全这一技术仍处于早期阶段的领域,DACO为多模态大模型的安全防护开辟了一条新路径。无需重训、不依赖外部审核,仅在推理时进行一点“概念清理”,就能让模型既安全又智能。这个方向,值得持续关注。

来源:https://cloud.tencent.com.cn/developer/article/2695300
上一篇AI安全论文研读:AAAI 2026增强VLA模型对抗物理传感器攻击的鲁棒性 下一篇学校图书馆RFID全流程智能升级解决方案
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网