13家顶尖机构联合发布具身智能安全综述从说错话到干错事
具身智能(Embodied AI)正以前所未有的速度,从实验室的模拟环境走向我们身处的真实世界。自动驾驶汽车开始在城市道路中穿梭,机械臂在工厂里自主抓取和装配,服务机器人也逐渐进入医院、商场与家庭。与传统大模型不同,这些系统不再只是“在屏幕上说话”——它们直接连接传感器、驱动执行器,并对物理世界产生真实、直接的影响。

然而,一个更深层、也更危险的问题正在浮现:当大模型开始驱动物理世界,过去那些“说错话”的安全风险,将第一次演变成“干错事”的现实风险。对于聊天机器人,一段越狱提示词最坏可能只是生成有害文本;但对于机械臂、自动驾驶或机器人系统,同样的攻击却可能直接转化为危险动作,甚至对现实世界造成不可逆的物理后果。
近日,来自复旦大学可信具身智能研究院、上海创智学院、香港城市大学、新加坡管理大学、伊利诺伊大学、墨尔本大学、约翰霍普金斯大学、南洋理工大学、中科院自动化所等13家机构的38位学者,联合发布了迄今最系统的具身智能安全技术综述。这篇长达70多页的论文,覆盖了近480篇研究,为这个新兴领域绘制了一幅清晰的风险与防御全景图。
论文标题:Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses
论文链接:https://arxiv.org/abs/2605.02900
项目仓库:https://github.com/x-zheng16/Awesome-Embodied-AI-Safety
项目网站:https://x-zheng16.github.io/Awesome-Embodied-AI-Safety/
这篇综述的核心贡献,在于提出了一个理解具身智能安全的系统性框架。它将具身智能划分为一个逐层递进的“五层能力圈”:感知、认知、规划、行动与交互,以及Agentic系统。贯穿全文的核心洞察,可以概括为一个关键概念——
「能力—风险」二象性(Capability-Risk Duality)
简单来说,每增加一层能力,就会新增一层攻击面;能力越强,风险面也越广。
这也构成了整篇综述的核心组织逻辑。沿着这五层能力圈,具身智能系统的风险正在从“数字世界”逐步演化为“物理世界”:
在感知层(例如人脸门禁系统),攻击者主要操纵传感器输入;
当系统具备认知能力(例如博物馆导览机器人),攻击面进一步扩展到语言理解与视觉推理;
当系统具备规划与闭环决策能力(例如自动驾驶),攻击者甚至可以干扰路径决策、轨迹预测与实时控制;
当系统进一步具备复杂物理交互能力(例如机械臂、人形机器人),错误决策将直接转化为现实世界中的危险动作与物理伤害;
而当系统演化为具备记忆、工具调用、自主规划与持续进化能力的 Agentic 系统后,内层任意一个漏洞,都可能沿着能力栈逐层级联放大。
换句话说,过去那些被孤立讨论的“对抗样本”、“后门攻击”、“越狱攻击”,在具身智能时代将不再只是单点安全事件。它们会沿着“感知—认知—规划—行动”的能力链条不断传递与放大,最终从一次模型错误,演变为一次真实世界中的系统性事故。
图 1:「能力—风险」二象性。能力栈每多一层,攻击面扩大一圈。
五层威胁,一图看懂具身智能安全
综述进一步将分散的攻击与防御研究统一到同一套能力框架中,系统梳理了不同能力层对应的核心攻击面与现实风险。
图 2:具身智能 5 层能力栈中的攻击面与威胁分布。
这篇综述与已有工作不同在哪里?
其实,具身安全领域这两年已经涌现了一批综述(如VLA Safety, Trustworthy EAI, World-Model Safety, LLM Robotics Security等)。但绝大多数研究都只聚焦于其中一层——有的只研究视觉语言模型(VLA)的对抗鲁棒性;有的只看导航场景下的稳健性;有的只关注大语言模型(LLM)控制机器人时的提示注入问题;还有的把安全当作“IoT系统中的一个组件”来讨论。
而这篇文章坚持一个核心立场:必须端到端地审视整个具身智能流程,因为攻击会跨层级联。它不仅整合了具身智能特有的安全工作,还从视觉、语言、多模态等基础模型安全研究中,筛选出与具身高度相关的工作,从而把“具身智能安全”放回了更大的AI安全图景里进行审视。
被低估的几个研究空白
通读全文,最值得收藏的部分或许是它指出的几条几乎没人系统研究的开放问题:
多模态融合的脆弱性——融合的模态越多,安全问题就越复杂,但目前几乎没有针对“融合层”本身的攻防分析;
规划层在越狱攻击下的稳定性——当LLM充当规划器时,越狱的后果不再是“输出有害文本”,而是“机器人开始执行有害任务”;
开放场景下的人机交互可信度——传统的人机交互(HRI)安全研究通常假设交互是闭合的,但真实世界里的对话是开放、动态且充满不确定性的;
Agentic系统的级联失效路径——记忆、工具调用、技能学习、自我进化等模块之间如何相互污染、导致级联失效,目前还缺少形式化的分析框架。
可以说,上述每一条都足以撑起一个独立且重要的研究方向。
不只是综述,更是一套社区资源
值得一提的是,研究团队同步构建并维护了一套完整的开放资源生态,包括:
Awesome-Embodied-AI-Safety GitHub 仓库:已收录480多篇文章,并按照能力层级和子类别进行组织,持续更新;
项目网站:提供分类浏览、研究统计与结构化阅读视图,方便检索;
arXiv 双月更新机制:团队以每两个月一次的节奏,同步纳入最新的arXiv相关研究,目前已包括HazardArena、RedVLA、JailWAM、IPI-in-Wild、MCP Function Hijacking、Skill Safety等前沿工作。
对于关注具身智能安全的研究者而言,这篇综述不仅是一份详尽的文献整理,更像是一张进入整个领域的“导航地图”和持续更新的知识库。
写在最后
具身智能正在重新定义AI与现实世界的连接方式。当一个模型不再只是“在屏幕上说话”,而开始真正进入物理世界——开始抓取、行走、操控、驾驶、交互、长期记忆,甚至自主进化——安全问题也正在发生根本性的变化。
过去,模型“说错一句话”,后果往往仍停留在数字空间;而在具身智能时代,一次感知偏差、一次规划错误、一次越狱攻击,都可能沿着能力栈逐级放大,最终演化为真实世界中的危险动作与系统性事故。
这意味着,安全已经不再只是某一种攻击、某一个基准测试、某一篇论文能够单独解决的问题。它正在成为贯穿感知、认知、规划、行动与Agentic系统的底层问题,必须被系统性、前瞻性地对待。
而这篇文章最重要的启示或许正是它反复强调的那句话:在具身智能时代,安全应当与能力同步设计,而不是事后打补丁。对于所有关注机器人、自动驾驶与智能体如何安全、可靠地走进现实世界的人来说,这份工作提供了一个不可或缺的思考框架和资源起点。
相关攻略
具身智能从数字走向物理世界,安全风险由“说错话”升级为“干错事”。13家机构学者联合综述,提出“能力—风险”二象性框架,将系统分为感知、认知、规划、行动与交互、Agentic系统五层能力圈,每层对应新攻击面,风险可沿能力链级联放大,造成物理伤害。研究整合了分散成果,并指出多模态融合的脆弱性问题。
在虚拟现实和数字孪生技术日益普及的今天,如何让计算机自动生成逼真的3D城市场景成为了一个备受关注的技术难题。最近,一项由北京大学、北航大学、卡内基梅隆大学等多所知名院校联合完成的研究为这个问题带来了
8 月 12 日消息,制造商雅西卡近年来推出了多款复古风格相机,相应产品主打“潮玩”定位,实际规格较为“入门”,目前该公司又推出了一款 Yashica City 300 卡片机,该机主要升级 1
疯狂像素城国家队阵容还是很不错的,很多玩家都喜欢这个阵容,想要知道这个阵容怎么搭配的小伙伴们。其实这个阵容选择还是很简单的,就让小编给大家详细的讲讲,。
为什么同样生存在City中,队友已经成为了一名小富婆了,而我却还在吃土呢?那是因为各位萌新小伙伴们还没有掌握高效收集各类资源的方法,这里小编给大家整理出来啦!一起来看看吧~
热门专题
热门推荐
软银计划改造大阪工厂以建设大型电池生产线,旨在为自身AI数据中心提供稳定电力支持,减少对外部电网的依赖。该项目预计在未来五年内投入运营,以应对日益增长的AI算力需求。
冬至将至,为便于员工与家人团聚,公司将于12月21日至23日放假三天,24日照常上班。请提前妥善安排工作交接。感谢全体员工一年的辛勤付出,愿大家度过温暖安康的假期,以饱满状态迎接后续工作。
《仙逆:战天道》是一款融合塔防策略与Roguelite随机性的修真题材游戏,高度还原原著剧情与角色。游戏采用动态生成关卡,玩家需灵活搭配神通法宝构建战斗流派。其“死亡成长”机制使失败也能积累永久强化,契合修真主题。目前九游平台福利较为丰富,提供多项开服资源,有助于玩家前期发展。
DeepSeek-V4接口与模型文档于4月24日在官网公布,包含轻量化的flash版与高性能的pro版。此举标志着技术栈趋于成熟开放,旨在向市场传递技术就绪、开放合作的信号,可能影响AI工具生态与行业竞争格局。
学校元旦放假时间为2024年1月1日至3日,共三天,1月4日返校上课。假期需注意个人安全,合理安排休息与学习,及时调整作息。借助智能办公工具可提升通知效率,确保信息准确传达。预祝大家度过平安充实的假期。





