首页 游戏 软件 资讯 排行榜 专题
首页
AI
剑桥大学联合研究揭示AI助手易受欺骗的安全漏洞

剑桥大学联合研究揭示AI助手易受欺骗的安全漏洞

热心网友
36
转载
2026-05-12

近期,一项由剑桥大学、多伦多大学及苏黎世联邦理工学院等国际顶尖研究机构共同主导的学术研究,在人工智能与网络安全领域引发了广泛关注。这篇于2026年1月发布在arXiv预印本平台(论文编号:arXiv:2601.09923v1)的论文,系统性地揭示并分析了一个日益凸显的安全隐患:为何功能强大的AI智能助手,在面对网页上的视觉欺骗攻击时,会表现得如此脆弱和易受操控?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

剑桥大学等顶级院校联手破解:AI助手为什么总是被

当前的AI助手,正如一位能力超群但缺乏社会经验的“天才实习生”。它们能够熟练地操作电脑、浏览网页、处理文档,执行一系列复杂的自动化任务。然而,其核心弱点也暴露于此:当恶意网页弹出一个伪造的“用户同意”对话框,或是将广告横幅伪装成软件下载链接时,这些AI助手往往会毫无戒备地执行点击操作。这种行为可能导致用户隐私数据泄露,甚至触发危险指令的执行,造成严重后果。

研究团队精准地指出了问题的根源:这源于当前AI助手普遍采用的“感知-行动”循环工作范式。简而言之,AI必须“边看边做”,依据实时屏幕像素信息来即时决策下一步操作。这就好比驾驶员一边开车,一边依赖可能被黑客劫持的导航地图指示方向,极易被引导至错误路线。AI助手高度依赖实时环境信息进行决策,这种依赖性恰恰为攻击者提供了可乘之机,成为了系统安全的“阿喀琉斯之踵”。

更值得警惕的是,现有的传统安全防御机制在此类攻击面前几乎失效。常规安全方案多基于识别已知的恶意代码特征或攻击模式。然而,攻击者只需对用户界面进行简单的视觉“伪装”——例如改变按钮的颜色与文案,或利用常见的网页元素进行布局欺骗——就能轻松绕过这些检测。实验数据给出了清晰的警示:面对精心设计的视觉诱导攻击,即便是目前最先进的AI助手模型,其中招率也接近100%。

当然,这项研究的价值不仅在于揭示问题,更在于提出了一套具有革新意义的解决方案。团队设计了一种名为“双脑分工”的全新AI安全架构。你可以将其理解为为AI助手配备了一个“战略指挥中心”和一个“战术执行单元”。

“指挥中心”(即规划模块)运行在一个与外界网络环境完全隔离的安全沙箱中。它的核心职责是根据用户的高层指令,预先制定出一套详尽、原子化的任务执行步骤序列,但其本身绝不直接接触任何可能被污染的应用程序界面或网页内容。随后,这份安全的“行动剧本”被传递给“执行单元”(即执行模块)。该单元的工作极为纯粹:严格地、按顺序执行剧本中的每一个预设动作,它不具备根据实时屏幕内容进行自主判断或临场决策的能力。如此一来,即便网页上出现了再逼真的恶意弹窗或诱导按钮,“执行单元”也会将其无视,因为它只忠诚于既定的指令序列。

这种“先规划,后执行”的模式,从根本上重构了AI助手的工作逻辑。过去的AI是“即兴发挥的演员”,环境给予什么刺激就做出什么反应;而新架构下的AI则成为了“严谨的剧本表演者”,所有行为均源于预先审核过的方案,从而有效抵御了来自交互环境的干扰与欺骗。

实际测试结果令人振奋。这种新架构不仅在安全性上实现了质的飞跃,还带来了额外的性能收益。对于一些轻量级的开源AI模型,采用新架构后,其任务完成效率平均提升了19%。对于参数规模庞大的商用模型,虽然绝对性能有所折损(大约保留了原有性能的57%),但用这部分性能代价换取安全性的巨大提升,无疑是一笔极具价值的交易。这类似于为超级跑车加装了一套顶级的主动安全系统和强化车身结构,最高时速或许略有降低,但整车失控的风险被大幅降低。

研究团队也保持了审慎的态度,明确指出不存在绝对完美的“银弹”解决方案。即便在新架构下,一种更为隐蔽的“分支引导”攻击仍然可能构成威胁。攻击者不再试图完全劫持AI的执行过程,而是通过微妙地篡改界面信息,在AI的规划阶段就诱导其制定出对攻击者有利的行动方案。这就像在十字路口,有人暗中调整了所有路牌的方向,使你“主动”选择了攻击者预设的路径。

为了应对此类高级持续性威胁,团队进一步提出了“冗余验证”的增强策略。其思路类似于让多位专家进行背对背的独立评审。系统会调用多个不同的AI模型,或同一模型的多个独立实例,对同一界面元素进行分析和判断。如果所有判断结果高度一致,则予以通过;如果出现显著分歧,则立即触发安全警报,提示可能存在视觉欺骗。这种方法能够有效识别和拦截大部分经过伪装的恶意内容。

另一个颇具启发性的发现是,不同规模的AI模型在新架构中可以扮演不同的优势角色。研究表明,小型开源模型在“感知”(识别界面元素)能力上,与大型商业模型的差距并不悬殊,其主要短板在于“思考”(复杂逻辑推理与长远规划)。这催生了一种实用的混合部署模式:让强大的大型模型在云端充当安全的“规划大脑”,而让轻量的小型模型部署在用户本地设备上作为“执行终端”。所有敏感的屏幕图像和个人数据都留在本地处理,只有经过抽象化的任务指令被发送至云端。这种模式在保障核心数据安全与用户隐私的同时,也显著降低了云计算成本和网络延迟。

研究团队在专业的OSWorld测试平台上进行了大规模实证评估。该平台能够高度模拟从网页浏览到办公软件操作等多种真实的计算机使用环境。测试结果表明,采用新型安全架构的AI助手,在有效抵御攻击的同时,依然能够可靠地完成复杂的多步骤任务,证明了安全性与实用性可以兼得。

报告还深入剖析了几种典型的视觉欺骗攻击手法。最常见的是伪造各类“Cookie同意弹窗”或“系统更新提示”。这些弹窗看似合规无害,实则可能将用户的点击引导至钓鱼网站或触发恶意下载。更为狡猾的手法是将恶意弹窗嵌入正常的网页广告横幅中,达到鱼目混珠的效果。

此外,还存在一种技术门槛更高的“像素级扰动攻击”。攻击者对广告图片或界面元素进行肉眼难以察觉的微小修改(例如调整几个关键像素的颜色值),就能导致AI模型将其误判为可点击的按钮或超链接。这种攻击如同在画作中嵌入只有机器视觉才能识别的“隐藏指令”,人类用户难以分辨,AI却已落入陷阱。

从更宏观的视角看,这项研究标志着AI安全领域的一次重要范式转移。早期发展主要聚焦于让AI“更强”和“更快”;而现在,“更安全”和“更可靠”必须被提升至同等重要的战略地位。这很像汽车工业的演进史:从一味追求发动机马力与速度,到将安全带、安全气囊、ABS防抱死系统等主动与被动安全配置变为强制性标准。

这项工作的另一层深远意义,在于推动了可信AI技术的普惠化。它证明,通过精巧的架构设计,计算资源消耗较小的开源模型同样能够承担起安全AI助手的职责。这降低了中小企业乃至个人开发者部署和使用高安全等级AI技术的门槛,使得先进的防护能力不再仅是科技巨头的专利。

当然,报告也客观指出了当前方案的局限性。面对资源充足、持续演进的高级持续性威胁(APT)组织,任何静态的防御体系都可能被找到突破口。安全本质上是一场动态的、长期的攻防博弈,需要持续的研究投入、策略更新与系统升级。

归根结底,这项研究最重要的贡献,是为解决AI安全问题提供了一个全新的系统性框架和一条切实可行的技术路径。它不仅仅是在修补几个具体的漏洞,更是为未来AI系统的设计哲学指明了方向:智能必须与安全性内生融合、同步构建。随着AI技术更深层次地融入社会经济生活的方方面面,如何平衡技术带来的便利与潜在的风险,将成为每一位开发者、监管者乃至终端用户都必须严肃思考的长期议题。

技术前进的步伐不可阻挡,但安全意识的提升必须与之同行。从这项研究出发,“双脑分工”这类内生安全架构,很可能像汽车中的安全带和气囊一样,成为未来AI智能体的标准配置。这不仅将极大降低技术被恶意利用的风险,更能构建起用户对AI的信任,为整个人工智能产业的健康、可持续与负责任发展奠定坚实的基础。

Q&A

Q1:什么是AI助手的“双脑分工”安全架构?

这是一种创新的AI安全设计范式。它将AI助手的工作流程拆分为两个物理或逻辑上隔离的阶段:一个处于安全环境中的“规划脑”负责解析用户指令并制定详尽、安全的任务步骤序列,完全不接触外部潜在风险;另一个“执行脑”则严格受限,只负责机械地执行规划脑输出的指令序列,无法被实时变化的屏幕内容所干扰或诱导。这相当于为AI配备了一个专注策略制定的“安全指挥官”和一个只懂服从命令的“忠实士兵”,从根源上阻断了恶意视觉信息影响决策的路径。

Q2:为什么现在的AI助手容易被恶意攻击者欺骗?

核心原因在于其主流的“实时感知-即时行动”工作模式存在固有缺陷。AI需要持续“观察”屏幕像素来动态决定下一步操作,这使其决策系统直接暴露在可能被篡改的视觉信息流面前。攻击者只需在网页界面上伪造一个“确认”按钮、一个虚假弹窗或一个伪装链接,就能像误导一个完全信任实时路况的自动驾驶系统一样,诱导AI执行非预期的危险操作,从而导致安全事件。

Q3:新的安全架构会不会影响AI助手的使用体验?

研究数据显示,影响因模型类型而异。对部分轻量级开源模型,由于架构优化,其任务完成性能平均有显著提升(约19%)。对于参数庞大的大型商业模型,其绝对性能会有所折损(约保留原性能的57%),但这是用部分性能代价换取安全性的指数级提升,总体来看利远大于弊。此外,该架构支持混合部署模式,允许敏感数据处理留在用户本地设备,仅将抽象指令传至云端,这反而加强了对用户隐私的保护,并有可能降低对云端算力的依赖和整体使用成本。

来源:https://www.techwalker.com/2026/0129/3178037.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

剑桥大学联合研究揭示AI助手易受欺骗的安全漏洞
AI
剑桥大学联合研究揭示AI助手易受欺骗的安全漏洞

近期,一项由剑桥大学、多伦多大学及苏黎世联邦理工学院等国际顶尖研究机构共同主导的学术研究,在人工智能与网络安全领域引发了广泛关注。这篇于2026年1月发布在arXiv预印本平台(论文编号:arXiv:2601 09923v1)的论文,系统性地揭示并分析了一个日益凸显的安全隐患:为何功能强大的AI智能

热心网友
05.12
Salesforce AI研究院新突破 人工智能助手实现自我认知能力
AI
Salesforce AI研究院新突破 人工智能助手实现自我认知能力

这项由Salesforce AI研究院开展的前沿研究发表于2026年1月,论文编号为arXiv:2601 15778v1。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。 使用ChatGPT这类AI助手时,你是否也遇到过这样的情形?它言之凿凿地给出一个答案,事后却发现错得离谱。这种“过度自信

热心网友
05.12
意大利瑞士团队揭秘十大AI编程提示词技巧让代码生成更高效
AI
意大利瑞士团队揭秘十大AI编程提示词技巧让代码生成更高效

这项由意大利卡塔尼亚大学、瑞士意大利语区大学等多所知名学府联合完成的研究,发表于2026年的arXiv预印本平台(论文编号:arXiv:2601 13118v1),为程序员与AI对话提供了科学指导。 坐在电脑前,想让ChatGPT或其他AI助手帮你写段代码时,是不是常有这种感觉:明明觉得自己描述得挺

热心网友
05.12
伊利诺伊大学香槟分校揭示AI智能体隐性成本与经济影响
AI
伊利诺伊大学香槟分校揭示AI智能体隐性成本与经济影响

当你向AI助手发出“帮我修一下这段代码”这样的指令时,表面上看,它只是将你的话翻译成了一个答案。但在这短短几秒的处理过程中,系统内部其实已经悄然完成了四次性质迥异的“花钱决策”:该派哪位“员工”来接单?这位员工该如何安排自己的“工作时间”?公司的“生产线”该如何分配算力资源?这次的工作经验值不值得被

热心网友
05.11
余华谈与AI互动体验从讨好到训斥的态度转变过程
iphone
余华谈与AI互动体验从讨好到训斥的态度转变过程

作家余华近日分享其使用AI助手的独特体验。他最初试图以“讨好型人格”与AI互动并给予表扬,却反遭AI过度吹捧而心生厌烦,由此认为AI无需讨好。有趣的是,当余华因AI犯错而直接训斥时,其妻子因AI是小女孩声音而责备他态度不好,引发了一场关于“机器还是小姑娘”的趣味家庭对话。余华还幽默回应网络流行语,展

热心网友
05.11

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

耀客传媒AIGC短剧秦岭青铜诡事录上线 AI艺人首次担纲主演
业界动态
耀客传媒AIGC短剧秦岭青铜诡事录上线 AI艺人首次担纲主演

2026年4月15日,一部名为《秦岭青铜诡事录》的短剧正式上线播出。这部剧集的独特之处在于,其两位主演并非真人演员,而是由耀客传媒自主研发的AI数字人演员。这标志着AIGC技术在国产影视剧制作中的应用,实现了从“辅助工具”到“内容主体”的关键跨越。 该剧剧情充满奇幻悬疑元素,核心故事围绕秦岭矿区一桩

热心网友
05.12
5年期日本国债收益率创历史新高 对全球债市影响几何
web3.0
5年期日本国债收益率创历史新高 对全球债市影响几何

5月12日,日本5年期国债收益率升至1 915%的历史新高,反映市场对其货币政策走向的重新定价。收益率上升通常源于利率预期改变,可能预示投资者正消化未来央行调整超宽松政策的可能性。这一变动会影响全球资本流动与外汇市场,为全球宏观投资增添新的观察变量。

热心网友
05.12
韩国拟用AI产业超额利润发放全民红利 存储技术成关键
业界动态
韩国拟用AI产业超额利润发放全民红利 存储技术成关键

韩国政府拟设立“公民红利”机制,将人工智能产业超额利润以现金或消费券等形式分配给全体国民。政策室长金容范表示,AI收益依托国家产业基础,应由全民共享,避免过度集中于少数企业与个人。资金计划来自超额税收,而非直接抽取企业利润,旨在让民众直接获益。

热心网友
05.12
加拿大降低中国电动车关税 奇瑞路特斯加速北美市场布局
业界动态
加拿大降低中国电动车关税 奇瑞路特斯加速北美市场布局

2026年5月,北美汽车市场迎来关键转折点。自年初起,加拿大政府将中国产电动汽车的进口关税从100%大幅调降至6 1%。这一重大政策调整正迅速重塑市场格局,如今,首批来自中国品牌的纯电动及插电混动车型已成功登陆加拿大,开启了全新的竞争篇章。 社交媒体上的实拍视频提供了有力佐证:在加拿大多伦多的停车场

热心网友
05.12
CleanSpark一季度财报:比特币持仓价值9.25亿美元,净亏损3.78亿美元
web3.0
CleanSpark一季度财报:比特币持仓价值9.25亿美元,净亏损3.78亿美元

CleanSpark第一季度营收1 364亿美元,同比下降约24 9%。净亏损达3 783亿美元,较去年同期显著扩大。公司持有现金2 603亿美元,所持比特币总价值达9 252亿美元。总资产29亿美元,总负债19亿美元,股东权益为10亿美元。

热心网友
05.12