剑桥大学联合研究揭示AI助手易受欺骗的安全漏洞_AI热点日报

剑桥大学联合研究揭示AI助手易受欺骗的安全漏洞

类型：热点整理2026-05-12

近期，一项由剑桥大学、多伦多大学及苏黎世联邦理工学院等国际顶尖研究机构共同主导的学术研究，在人工智能与网络安全领域引发了广泛关注。这篇于2026年1月发布在arXiv预印本平台（论文编号：arXiv:2601 09923v1）的论文，系统性地揭示并分析了一个日益凸显的安全隐患：为何功能强大的AI智能

近期，一项由剑桥大学、多伦多大学及苏黎世联邦理工学院等国际顶尖研究机构共同主导的学术研究，在人工智能与网络安全领域引发了广泛关注。这篇于2026年1月发布在arXiv预印本平台（论文编号：arXiv:2601.09923v1）的论文，系统性地揭示并分析了一个日益凸显的安全隐患：为何功能强大的AI智能助手，在面对网页上的视觉欺骗攻击时，会表现得如此脆弱和易受操控？

剑桥大学等顶级院校联手破解：AI助手为什么总是被

当前的AI助手，正如一位能力超群但缺乏社会经验的“天才实习生”。它们能够熟练地操作电脑、浏览网页、处理文档，执行一系列复杂的自动化任务。然而，其核心弱点也暴露于此：当恶意网页弹出一个伪造的“用户同意”对话框，或是将广告横幅伪装成软件下载链接时，这些AI助手往往会毫无戒备地执行点击操作。这种行为可能导致用户隐私数据泄露，甚至触发危险指令的执行，造成严重后果。

研究团队精准地指出了问题的根源：这源于当前AI助手普遍采用的“感知-行动”循环工作范式。简而言之，AI必须“边看边做”，依据实时屏幕像素信息来即时决策下一步操作。这就好比驾驶员一边开车，一边依赖可能被黑客劫持的导航地图指示方向，极易被引导至错误路线。AI助手高度依赖实时环境信息进行决策，这种依赖性恰恰为攻击者提供了可乘之机，成为了系统安全的“阿喀琉斯之踵”。

更值得警惕的是，现有的传统安全防御机制在此类攻击面前几乎失效。常规安全方案多基于识别已知的恶意代码特征或攻击模式。然而，攻击者只需对用户界面进行简单的视觉“伪装”——例如改变按钮的颜色与文案，或利用常见的网页元素进行布局欺骗——就能轻松绕过这些检测。实验数据给出了清晰的警示：面对精心设计的视觉诱导攻击，即便是目前最先进的AI助手模型，其中招率也接近100%。

当然，这项研究的价值不仅在于揭示问题，更在于提出了一套具有革新意义的解决方案。团队设计了一种名为“双脑分工”的全新AI安全架构。你可以将其理解为为AI助手配备了一个“战略指挥中心”和一个“战术执行单元”。

“指挥中心”（即规划模块）运行在一个与外界网络环境完全隔离的安全沙箱中。它的核心职责是根据用户的高层指令，预先制定出一套详尽、原子化的任务执行步骤序列，但其本身绝不直接接触任何可能被污染的应用程序界面或网页内容。随后，这份安全的“行动剧本”被传递给“执行单元”（即执行模块）。该单元的工作极为纯粹：严格地、按顺序执行剧本中的每一个预设动作，它不具备根据实时屏幕内容进行自主判断或临场决策的能力。如此一来，即便网页上出现了再逼真的恶意弹窗或诱导按钮，“执行单元”也会将其无视，因为它只忠诚于既定的指令序列。

这种“先规划，后执行”的模式，从根本上重构了AI助手的工作逻辑。过去的AI是“即兴发挥的演员”，环境给予什么刺激就做出什么反应；而新架构下的AI则成为了“严谨的剧本表演者”，所有行为均源于预先审核过的方案，从而有效抵御了来自交互环境的干扰与欺骗。

实际测试结果令人振奋。这种新架构不仅在安全性上实现了质的飞跃，还带来了额外的性能收益。对于一些轻量级的开源AI模型，采用新架构后，其任务完成效率平均提升了19%。对于参数规模庞大的商用模型，虽然绝对性能有所折损（大约保留了原有性能的57%），但用这部分性能代价换取安全性的巨大提升，无疑是一笔极具价值的交易。这类似于为超级跑车加装了一套顶级的主动安全系统和强化车身结构，最高时速或许略有降低，但整车失控的风险被大幅降低。

研究团队也保持了审慎的态度，明确指出不存在绝对完美的“银弹”解决方案。即便在新架构下，一种更为隐蔽的“分支引导”攻击仍然可能构成威胁。攻击者不再试图完全劫持AI的执行过程，而是通过微妙地篡改界面信息，在AI的规划阶段就诱导其制定出对攻击者有利的行动方案。这就像在十字路口，有人暗中调整了所有路牌的方向，使你“主动”选择了攻击者预设的路径。

为了应对此类高级持续性威胁，团队进一步提出了“冗余验证”的增强策略。其思路类似于让多位专家进行背对背的独立评审。系统会调用多个不同的AI模型，或同一模型的多个独立实例，对同一界面元素进行分析和判断。如果所有判断结果高度一致，则予以通过；如果出现显著分歧，则立即触发安全警报，提示可能存在视觉欺骗。这种方法能够有效识别和拦截大部分经过伪装的恶意内容。

另一个颇具启发性的发现是，不同规模的AI模型在新架构中可以扮演不同的优势角色。研究表明，小型开源模型在“感知”（识别界面元素）能力上，与大型商业模型的差距并不悬殊，其主要短板在于“思考”（复杂逻辑推理与长远规划）。这催生了一种实用的混合部署模式：让强大的大型模型在云端充当安全的“规划大脑”，而让轻量的小型模型部署在用户本地设备上作为“执行终端”。所有敏感的屏幕图像和个人数据都留在本地处理，只有经过抽象化的任务指令被发送至云端。这种模式在保障核心数据安全与用户隐私的同时，也显著降低了云计算成本和网络延迟。

研究团队在专业的OSWorld测试平台上进行了大规模实证评估。该平台能够高度模拟从网页浏览到办公软件操作等多种真实的计算机使用环境。测试结果表明，采用新型安全架构的AI助手，在有效抵御攻击的同时，依然能够可靠地完成复杂的多步骤任务，证明了安全性与实用性可以兼得。

报告还深入剖析了几种典型的视觉欺骗攻击手法。最常见的是伪造各类“Cookie同意弹窗”或“系统更新提示”。这些弹窗看似合规无害，实则可能将用户的点击引导至钓鱼网站或触发恶意下载。更为狡猾的手法是将恶意弹窗嵌入正常的网页广告横幅中，达到鱼目混珠的效果。

此外，还存在一种技术门槛更高的“像素级扰动攻击”。攻击者对广告图片或界面元素进行肉眼难以察觉的微小修改（例如调整几个关键像素的颜色值），就能导致AI模型将其误判为可点击的按钮或超链接。这种攻击如同在画作中嵌入只有机器视觉才能识别的“隐藏指令”，人类用户难以分辨，AI却已落入陷阱。

从更宏观的视角看，这项研究标志着AI安全领域的一次重要范式转移。早期发展主要聚焦于让AI“更强”和“更快”；而现在，“更安全”和“更可靠”必须被提升至同等重要的战略地位。这很像汽车工业的演进史：从一味追求发动机马力与速度，到将安全带、安全气囊、ABS防抱死系统等主动与被动安全配置变为强制性标准。

这项工作的另一层深远意义，在于推动了可信AI技术的普惠化。它证明，通过精巧的架构设计，计算资源消耗较小的开源模型同样能够承担起安全AI助手的职责。这降低了中小企业乃至个人开发者部署和使用高安全等级AI技术的门槛，使得先进的防护能力不再仅是科技巨头的专利。

当然，报告也客观指出了当前方案的局限性。面对资源充足、持续演进的高级持续性威胁（APT）组织，任何静态的防御体系都可能被找到突破口。安全本质上是一场动态的、长期的攻防博弈，需要持续的研究投入、策略更新与系统升级。

归根结底，这项研究最重要的贡献，是为解决AI安全问题提供了一个全新的系统性框架和一条切实可行的技术路径。它不仅仅是在修补几个具体的漏洞，更是为未来AI系统的设计哲学指明了方向：智能必须与安全性内生融合、同步构建。随着AI技术更深层次地融入社会经济生活的方方面面，如何平衡技术带来的便利与潜在的风险，将成为每一位开发者、监管者乃至终端用户都必须严肃思考的长期议题。

技术前进的步伐不可阻挡，但安全意识的提升必须与之同行。从这项研究出发，“双脑分工”这类内生安全架构，很可能像汽车中的安全带和气囊一样，成为未来AI智能体的标准配置。这不仅将极大降低技术被恶意利用的风险，更能构建起用户对AI的信任，为整个人工智能产业的健康、可持续与负责任发展奠定坚实的基础。

Q&A

Q1：什么是AI助手的“双脑分工”安全架构？

这是一种创新的AI安全设计范式。它将AI助手的工作流程拆分为两个物理或逻辑上隔离的阶段：一个处于安全环境中的“规划脑”负责解析用户指令并制定详尽、安全的任务步骤序列，完全不接触外部潜在风险；另一个“执行脑”则严格受限，只负责机械地执行规划脑输出的指令序列，无法被实时变化的屏幕内容所干扰或诱导。这相当于为AI配备了一个专注策略制定的“安全指挥官”和一个只懂服从命令的“忠实士兵”，从根源上阻断了恶意视觉信息影响决策的路径。

Q2：为什么现在的AI助手容易被恶意攻击者欺骗？

核心原因在于其主流的“实时感知-即时行动”工作模式存在固有缺陷。AI需要持续“观察”屏幕像素来动态决定下一步操作，这使其决策系统直接暴露在可能被篡改的视觉信息流面前。攻击者只需在网页界面上伪造一个“确认”按钮、一个虚假弹窗或一个伪装链接，就能像误导一个完全信任实时路况的自动驾驶系统一样，诱导AI执行非预期的危险操作，从而导致安全事件。

Q3：新的安全架构会不会影响AI助手的使用体验？

研究数据显示，影响因模型类型而异。对部分轻量级开源模型，由于架构优化，其任务完成性能平均有显著提升（约19%）。对于参数庞大的大型商业模型，其绝对性能会有所折损（约保留原性能的57%），但这是用部分性能代价换取安全性的指数级提升，总体来看利远大于弊。此外，该架构支持混合部署模式，允许敏感数据处理留在用户本地设备，仅将抽象指令传至云端，这反而加强了对用户隐私的保护，并有可能降低对云端算力的依赖和整体使用成本。

来源：https://www.techwalker.com/2026/0129/3178037.shtml

AI助手

延伸阅读

补充最近整理过的热点入口。

剑桥大学联合研究揭示AI助手易受欺骗的安全漏洞

Q&A

相关热点

延伸阅读