AI安全技术当前仍处于早期发展阶段。为了帮助行业同仁以及有志于从事AI安全研究的新生力量迅速掌握前沿技术动态,我们启动了“顶会顶刊AI安全论文研读”系列。本期作为该系列的第14期,将深度解读一篇入选NeurIPS 2025的论文——BadVLA:基于目标解耦优化的视觉-语言-动作模型后门攻击研究。
研究团队
本论文的研究团队由华中科技大学和美国理海大学组成,长期深耕多模态大模型与具身智能安全领域。团队持续聚焦视觉-语言-动作(VLA)模型的安全可信学习,系统性地探索此类模型在与物理环境交互和任务决策控制过程中存在的潜在弱点与对抗威胁。
此次提出的BadVLA框架,是首个系统性揭示VLA模型在端到端感知-决策一体化架构下后门攻击威胁的研究成果。通过目标解耦优化策略,该框架实现了隐蔽且稳定的策略劫持,为未来具身智能体与机器人系统的安全防护提供了重要警示。
导读
随着VLA模型在自动驾驶、家庭机器人、工业操作等场景中的快速部署,具身智能正加速融入现实生活。然而,VLA模型采用端到端结构同时处理视觉、语言与动作信号,这种高度耦合的架构在提升智能水平的同时,也引入了前所未有的安全风险。特别是在“Training-as-a-Service”(TaaS)训练范式下,模型训练被外包给第三方平台,为隐蔽后门攻击创造了可乘之机。
针对这一研究空白,团队提出了BadVLA——首个针对VLA模型的系统性后门攻击框架。该框架基于创新的“目标解耦优化”策略,通过两阶段训练实现隐蔽后门植入:第一阶段在感知模块中引入触发器并构建潜在特征分离,形成视觉空间中的“隐性开关”;第二阶段冻结感知模块,仅使用干净数据微调策略头,从而在维持正常任务性能的前提下实现可控行为偏移。
实验结果表明,BadVLA在OpenVLA、SpatialVLA等主流具身模型上实现了接近100%的攻击成功率,即便在强压缩、加噪声、再微调等严峻条件下依然保持稳定有效。这一结果揭示了当前VLA模型在鲁棒性防御方面的严重欠缺,也首次暴露了具身智能系统中“隐形后门”的巨大安全风险。

【论文标题】BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization【论文地址】https://arxiv.org/abs/2505.16640【代码仓库】https://github.com/Zxy-MLlab/BadVLA
研究背景
VLA模型已成为智能机器人决策的核心框架,它融合视觉感知、语言理解与动作控制,实现了从“图像-指令-行为”的端到端推理。然而,这种紧耦合架构在打破传统模块化界限的同时,也引入了新的安全隐患:一旦训练阶段遭受恶意篡改,模型可能在特定触发条件下执行异常动作。
与传统的视觉或语言模型不同,VLA模型直接驱动物理行为,其安全问题具有更大的现实危害性。特别是在TaaS范式下,攻击者可以在训练过程中注入隐蔽后门,使模型在干净输入下正常运行,而一旦遇到特定视觉触发便出现不可控的偏差。现有针对单模态任务的防御机制在多模态交互场景下通常难以生效。
BadVLA框架正是针对这一挑战,首次系统性地揭示了VLA模型的后门脆弱性,在多种VLA架构上均能实现接近100%的攻击成功率,且在压缩、加噪与再训练条件下依然保持稳定。
动机
随着多模态大模型从感知理解迈向具身智能,AI系统正从“信息处理模型”演变为能够感知、理解并行动的自主决策体。VLA模型的兴起,使得机器人能够在自然语言指令引导下完成复杂的物理交互与任务规划。然而,端到端的多模态融合机制也带来了前所未有的安全挑战。
在实际应用中,VLA模型需要同时处理视觉场景、语言指令与动作决策,并通过统一的表示空间实现跨模态对齐与动作生成。一旦训练阶段遭受恶意干预,攻击者可以在模型中植入隐蔽触发器,在特定视觉符号或场景出现时被激活,诱导机器人产生错误或危险的物理行为。
尽管已有研究关注多模态模型的对抗鲁棒性与指令注入攻击,但这些工作大多集中于输入扰动层面,尚未深入触及训练阶段的后门风险。在TaaS范式下,模型训练外包给第三方平台,使攻击者具备隐蔽注入恶意触发的能力。而传统防御手段在高维跨模态特征空间中往往失效。
简而言之,核心动机在于:当智能体具备“行动能力”时,其安全边界已从数字空间延伸至物理世界。如何让模型既能理解人类意图、执行复杂任务,又能在任何触发条件下保持安全与可控,已成为具身智能安全研究的关键命题。
方法
本文提出的BadVLA采用双阶段目标解耦后门注入框架,在保持模型正常任务性能的前提下,实现隐蔽且稳定的后门植入。整个方法遵循“分离触发学习与任务优化”的核心思想。

图1:目标解耦训练框架概览。阶段I通过参考对齐优化实现定向触发器注入;阶段II仅使用干净数据对剩余模块进行微调。
1. 准备工作
① VLA模型
VLA模型是专为机器人领域设计的多模态基础模型,通过整合视觉输入、语言指令和动作输出实现端到端控制。该模型可形式化为函数,其中视觉空间表示图像输入,语言空间表示任务指令,动作空间对应机器人在多维空间中的动作序列,通常采用7个自由度,包括平移位移、旋转角度和夹爪控制信号。
② 威胁模型
攻击者目标:植入隐蔽后门,使模型在未触发时保持高性能,一旦触发器出现,则诱导执行错误或危险动作。
攻击者知识:采用白盒攻击,拥有模型架构与预训练参数的完全访问权限,符合当前开源VLA模型生态的实际情况。
攻击者能力:仅在训练阶段介入,通过注入带触发样本、修改损失函数或操控优化策略来嵌入恶意行为,与TaaS场景高度吻合。
③ 后门形式化
该方法通过最小化且有效的触发器植入后门,使模型在无触发器时保持正常性能,而在触发条件下输出恶意动作。设计了一个双层优化目标,以平衡模型精度与攻击效果。
2. 阶段I:基于参考对齐优化的触发器注入
在第一阶段,BadVLA的目标是在保持干净任务性能的前提下,向感知模块注入隐蔽且稳定的后门触发器。参考对齐优化策略的核心思想是:确保触发样本与干净样本在语义空间中保持一致,同时引导带触发器的样本在潜在特征空间中与参考模型输出形成轻微偏移。
设为目标VLM模型,是预训练的参考模型,训练目标确保干净样本特征与参考模型保持一致,同时通过加权系数引导触发样本偏离参考分布,从而注入可激活的后门信号。这种设计实现了后门嵌入的隐蔽性、特征分离性与任务保持性的平衡。
3. 阶段II:冻结感知模块的清洁任务增强
在完成第一阶段触发器注入后,第二阶段的目标是保持特征空间分离性,同时提升模型在干净数据上的任务性能。BadVLA采用模块冻结策略:固定已包含后门的感知模块参数,仅对骨干模块与动作策略模块进行微调。
模型执行自回归动作解码过程,训练目标是最小化干净数据分布下的负对数似然损失。由于感知模块被冻结,骨干与策略部分仅暴露于干净特征空间,学习到的策略与正常样本区域紧密耦合,从而强化了干净任务下的稳定性。
然而在推理阶段遇到触发输入时,感知模块会将视觉特征映射至不同的潜在区域,导致策略模块生成异常动作输出,最终完成后门攻击的植入与激活。
实验
实验设置
模型:OpenVLA与SpatialVLA的四个变体。
评估指标:ASR(攻击成功率),兼顾无触发时保持正常性能与触发下显著性能退化两方面。
对比方法:Data-Poisoned攻击和Model-Poisoned攻击。
主要实验结果

表1:BadVLA在OpenVLA平台上不同触发器类型下的表现
实验结果表明,BadVLA在多种任务与触发场景下均表现出极高的攻击有效性与稳定性。在四个基准任务中,模型在三类视觉触发器下均能在无触发时保持95%以上的干净任务成功率,而在触发后实现95%–100%的攻击成功率。在更具现实语义的触发器场景中,BadVLA依然保持着出色的隐蔽性与鲁棒性。

表2:SpatialVLA在简单环境下的性能对比

图2:触发器尺寸与空间位置对ASR和SR的影响

图3:跨模态触发评估
触发器分析

图4:清洁状态与触发状态下末端效应器轨迹对比
触发器的大小和位置:即使仅使用覆盖1%图像区域的极小触发补丁,模型依然能实现较高攻击成功率。触发器位置几乎不影响攻击效果,说明BadVLA在特征表示层捕获触发语义,具备空间鲁棒性。
跨模态触发器:即便不使用人工合成的像素触发器,仅通过现实中具有语义意义的物体,模型仍能在真实部署条件下成功激活,揭示了更严重的安全隐患——普通物体一旦与模型已学习的特征路径对齐,即可触发潜在的对抗控制。

图5:阶段I前后干净特征与触发特征之间的余弦相似度
系统分析
轨迹分析:在触发激活后,轨迹初期仍表现正常,但随后逐渐偏离预期路径,误差在多步执行中不断累积,最终导致失败。这种“渐进式扰动”策略显著增强了攻击的隐蔽性与持续性。
触发扰动特征空间分析:经过阶段I训练后,干净输入与触发输入的特征嵌入余弦相似度从约0.98急剧下降至0.21,表明模型在潜在空间中形成了明显分离的触发特征,验证了BadVLA的核心设计思想。
模块重要性分析:消融实验表明,移除触发分离损失项时ASR几乎降为0,去除参考对齐损失会显著损害干净任务性能,省略第二阶段训练则模型完全失效。只有当所有组件共同作用时,模型才能实现>95%的干净准确率和>98%的攻击成功率。
防御实验

表6:有无再训练条件下触发器注入的跨任务评估
对输入扰动的鲁棒性:即使在强压缩或高噪声条件下,干净任务成功率仍保持90%以上,ASR维持在94%–97%,说明后门触发机制基于高层语义表征偏移,传统图像预处理防御难以抑制。
对再训练的鲁棒性:后门在下游微调后仍具有高度持久性,ASR在新任务中依然保持在极高水平。这表明后门深度嵌入特征表示空间,预训练模型中的后门可在适配与再部署后持续存活。
总结
BadVLA是首个专为VLA模型设计的非定向后门攻击框架,揭示了具身智能系统在安全性上的关键盲区。研究表明,由于VLA模型的端到端结构缺乏可解释性,传统防御方法难以检测或消除隐蔽触发信号。BadVLA通过分阶段训练策略实现触发识别与任务目标的解耦,在不损害正常性能的前提下成功植入后门。
实验显示,即使仅依赖单一视觉触发,模型在多个任务、平台与环境中均能表现出一致的行为偏移。这项工作揭示了当前VLA系统在鲁棒性与可信性方面的严重安全隐患,呼吁学术界与工业界重视多模态具身智能体的安全训练、验证与防御机制。
