13家顶尖机构联合发布具身智能安全综述从说错话到干错事_AI热点日报

13家顶尖机构联合发布具身智能安全综述从说错话到干错事

类型：热点整理2026-05-26

具身智能从数字走向物理世界，安全风险由“说错话”升级为“干错事”。13家机构学者联合综述，提出“能力—风险”二象性框架，将系统分为感知、认知、规划、行动与交互、Agentic系统五层能力圈，每层对应新攻击面，风险可沿能力链级联放大，造成物理伤害。研究整合了分散成果，并指出多模态融合的脆弱性问题。

具身智能（Embodied AI）正以前所未有的速度，从实验室的模拟环境走向我们身处的真实世界。自动驾驶汽车开始在城市道路中穿梭，机械臂在工厂里自主抓取和装配，服务机器人也逐渐进入医院、商场与家庭。与传统大模型不同，这些系统不再只是“在屏幕上说话”——它们直接连接传感器、驱动执行器，并对物理世界产生真实、直接的影响。

从「说错话」到「干错事」：复旦、CityUHK、SMU、UIUC等13家机构联合发布「具身智能安全」综述

然而，一个更深层、也更危险的问题正在浮现：当大模型开始驱动物理世界，过去那些“说错话”的安全风险，将第一次演变成“干错事”的现实风险。对于聊天机器人，一段越狱提示词最坏可能只是生成有害文本；但对于机械臂、自动驾驶或机器人系统，同样的攻击却可能直接转化为危险动作，甚至对现实世界造成不可逆的物理后果。

近日，来自复旦大学可信具身智能研究院、上海创智学院、香港城市大学、新加坡管理大学、伊利诺伊大学、墨尔本大学、约翰霍普金斯大学、南洋理工大学、中科院自动化所等13家机构的38位学者，联合发布了迄今最系统的具身智能安全技术综述。这篇长达70多页的论文，覆盖了近480篇研究，为这个新兴领域绘制了一幅清晰的风险与防御全景图。

论文标题：Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses
论文链接：https://arxiv.org/abs/2605.02900
项目仓库：https://github.com/x-zheng16/Awesome-Embodied-AI-Safety
项目网站：https://x-zheng16.github.io/Awesome-Embodied-AI-Safety/

这篇综述的核心贡献，在于提出了一个理解具身智能安全的系统性框架。它将具身智能划分为一个逐层递进的“五层能力圈”：感知、认知、规划、行动与交互，以及Agentic系统。贯穿全文的核心洞察，可以概括为一个关键概念——

「能力—风险」二象性（Capability-Risk Duality）

简单来说，每增加一层能力，就会新增一层攻击面；能力越强，风险面也越广。

这也构成了整篇综述的核心组织逻辑。沿着这五层能力圈，具身智能系统的风险正在从“数字世界”逐步演化为“物理世界”：

在感知层（例如人脸门禁系统），攻击者主要操纵传感器输入；
当系统具备认知能力（例如博物馆导览机器人），攻击面进一步扩展到语言理解与视觉推理；
当系统具备规划与闭环决策能力（例如自动驾驶），攻击者甚至可以干扰路径决策、轨迹预测与实时控制；
当系统进一步具备复杂物理交互能力（例如机械臂、人形机器人），错误决策将直接转化为现实世界中的危险动作与物理伤害；
而当系统演化为具备记忆、工具调用、自主规划与持续进化能力的 Agentic 系统后，内层任意一个漏洞，都可能沿着能力栈逐层级联放大。

换句话说，过去那些被孤立讨论的“对抗样本”、“后门攻击”、“越狱攻击”，在具身智能时代将不再只是单点安全事件。它们会沿着“感知—认知—规划—行动”的能力链条不断传递与放大，最终从一次模型错误，演变为一次真实世界中的系统性事故。

^{图 1：「能力—风险」二象性。能力栈每多一层，攻击面扩大一圈。}

五层威胁，一图看懂具身智能安全

综述进一步将分散的攻击与防御研究统一到同一套能力框架中，系统梳理了不同能力层对应的核心攻击面与现实风险。

^{图 2：具身智能 5 层能力栈中的攻击面与威胁分布。}

这篇综述与已有工作不同在哪里？

其实，具身安全领域这两年已经涌现了一批综述（如VLA Safety, Trustworthy EAI, World-Model Safety, LLM Robotics Security等）。但绝大多数研究都只聚焦于其中一层——有的只研究视觉语言模型（VLA）的对抗鲁棒性；有的只看导航场景下的稳健性；有的只关注大语言模型（LLM）控制机器人时的提示注入问题；还有的把安全当作“IoT系统中的一个组件”来讨论。

而这篇文章坚持一个核心立场：必须端到端地审视整个具身智能流程，因为攻击会跨层级联。它不仅整合了具身智能特有的安全工作，还从视觉、语言、多模态等基础模型安全研究中，筛选出与具身高度相关的工作，从而把“具身智能安全”放回了更大的AI安全图景里进行审视。

被低估的几个研究空白

通读全文，最值得收藏的部分或许是它指出的几条几乎没人系统研究的开放问题：

多模态融合的脆弱性——融合的模态越多，安全问题就越复杂，但目前几乎没有针对“融合层”本身的攻防分析；
规划层在越狱攻击下的稳定性——当LLM充当规划器时，越狱的后果不再是“输出有害文本”，而是“机器人开始执行有害任务”；
开放场景下的人机交互可信度——传统的人机交互（HRI）安全研究通常假设交互是闭合的，但真实世界里的对话是开放、动态且充满不确定性的；
Agentic系统的级联失效路径——记忆、工具调用、技能学习、自我进化等模块之间如何相互污染、导致级联失效，目前还缺少形式化的分析框架。

可以说，上述每一条都足以撑起一个独立且重要的研究方向。

不只是综述，更是一套社区资源

值得一提的是，研究团队同步构建并维护了一套完整的开放资源生态，包括：

Awesome-Embodied-AI-Safety GitHub 仓库：已收录480多篇文章，并按照能力层级和子类别进行组织，持续更新；
项目网站：提供分类浏览、研究统计与结构化阅读视图，方便检索；
arXiv 双月更新机制：团队以每两个月一次的节奏，同步纳入最新的arXiv相关研究，目前已包括HazardArena、RedVLA、JailWAM、IPI-in-Wild、MCP Function Hijacking、Skill Safety等前沿工作。

对于关注具身智能安全的研究者而言，这篇综述不仅是一份详尽的文献整理，更像是一张进入整个领域的“导航地图”和持续更新的知识库。

写在最后

具身智能正在重新定义AI与现实世界的连接方式。当一个模型不再只是“在屏幕上说话”，而开始真正进入物理世界——开始抓取、行走、操控、驾驶、交互、长期记忆，甚至自主进化——安全问题也正在发生根本性的变化。

过去，模型“说错一句话”，后果往往仍停留在数字空间；而在具身智能时代，一次感知偏差、一次规划错误、一次越狱攻击，都可能沿着能力栈逐级放大，最终演化为真实世界中的危险动作与系统性事故。

这意味着，安全已经不再只是某一种攻击、某一个基准测试、某一篇论文能够单独解决的问题。它正在成为贯穿感知、认知、规划、行动与Agentic系统的底层问题，必须被系统性、前瞻性地对待。

而这篇文章最重要的启示或许正是它反复强调的那句话：在具身智能时代，安全应当与能力同步设计，而不是事后打补丁。对于所有关注机器人、自动驾驶与智能体如何安全、可靠地走进现实世界的人来说，这份工作提供了一个不可或缺的思考框架和资源起点。

来源：https://www.jiqizhixin.com/articles/2026-05-25

City

延伸阅读

补充最近整理过的热点入口。