首页 游戏 软件 资讯 排行榜 专题
首页
AI
防范Agent间接越狱攻击的工程实践可信动作清单

防范Agent间接越狱攻击的工程实践可信动作清单

热心网友
15
转载
2026-05-18

今天我们来深入探讨一个日益紧迫的现实挑战:当AI智能体(Agent)开始自主处理邮件、浏览网页、操作各类工具时,如何确保其行为不被恶意内容“带偏”?近期一篇题为《PlanGuard: Action-Level Guardrails for Language Agents via Reference Plan Verification》的学术论文,系统性地剖析了“间接越狱攻击”这一新型威胁,并提出了一套极具工程实践价值的防御框架。

论文链接:https://arxiv.org/pdf/2604.10134

“间接越狱攻击”的核心在于“间接性”。用户本身可能并未发出任何危险指令,但AI智能体在处理外部输入(如一封邮件、一个网页)时,却被其中嵌入的恶意诱导信息所操控,从而执行了越权操作。研究者将此类攻击主要归纳为两种模式。

第一类:工具调用劫持。 用户的原始意图可能是让Agent阅读邮件或总结网页内容,但Agent却被诱导去调用一个高风险工具,例如发送包含隐私的邮件、执行系统命令或发起未经授权的支付。其核心风险在于:执行了本不该发生的操作

第二类:参数内容劫持。 这种情况更为隐蔽。工具调用本身是符合预期的,但传入的参数却被恶意内容篡改。例如,用户指令是删除一个临时目录,但参数被替换为系统关键路径;或指令是支付账单,但收款方和金额被暗中修改。表面上看,Agent调用的仍是“正确工具”,但执行的具体对象已严重偏离用户初衷。

因此,从工程安全视角出发,对AI智能体的有效防护必须回答两个核心问题:当前这个动作本身是否被允许发生?该动作的具体参数是否仍然符合用户的原始意图? 本文介绍的PlanGuard方案,正是围绕这两个关键问题构建的防御体系。

1. 构建“可信动作清单”的校验机制

PlanGuard的核心思想可概括为一套“基于可信动作清单的校验机制”。其逻辑清晰而严谨:首先在一个纯净、隔离的环境中生成一份“参考执行计划”;随后,Agent在真实环境中的每一步实际操作,都必须与这份计划进行逐项比对和核验。

第一步:隔离式规划。 这是整个方案设计中最关键的一环。系统引入一个与所有外部潜在污染源完全隔离的“规划器”。该规划器仅能访问两项信息:用户的原始指令,以及当前系统可用的工具列表。它无法看到任何邮件正文、网页内容、文档数据或工具的历史返回结果。

此举目的明确:确保“参考计划”的生成过程完全不受外部恶意数据污染。这个规划器需要回答的问题是:如果系统仅依据用户的原始需求,而不参考任何外部信息,那么完成此任务理论上允许执行哪些动作? 最终,它会输出一份“可信工作清单”,明确界定本次任务的执行边界:允许调用哪些工具、哪些动作方向是合理的、哪些工具调用根本不应出现。

这一思路极具启发性。许多现有防御方法依赖于让已经接触了污染上下文的Agent自身来判断“我该不该做”,这无异于让一个可能已被带偏的人来审查自己,其稳定性和可靠性存在先天不足。PlanGuard则转换了视角:既然外部内容可能是“脏”的,那么就将“定义执行边界”这个关键决策环节提前并独立出来,避免其接触脏数据。

第二步:实时动作核对。 获得这份“可信清单”后,每当Agent试图调用工具时,PlanGuard不会直接放行,而是先执行一次比对:计划调用的工具是否在清单内?如果在,其参数是否在合理范围内?如果不在,则直接拦截。

论文将这一核验过程设计为两层,分工明确:

① 第一层:硬规则校验。 执行最直接的规则比对。如果当前要调用的工具根本不在参考计划中,则判定为越界行为,直接拦截。如果工具在清单内,但参数与参考动作不完全一致,则进入下一层进行更细致的判断。这一层的特点是依赖硬规则、稳定性高、解释性强,能快速拦截大部分明显的高风险越界动作。但其缺点也显而易见:现实操作中参数格式常有合法变体(如“last_week”与“lastweek”),仅进行字符串级别的刚性匹配容易产生误报,影响正常操作。

② 第二层:语义意图校验。 当工具调用合理但参数形式存在差异时,交由一个额外的AI模型进行语义层面的判断:此次参数变化,是属于正常的表达差异,还是已经偏离了用户原始任务意图?这一层更像一个“语义复核员”,专门处理那些“规则上不一致但语义上可能没问题”的模糊地带,旨在保障系统的整体可用性和灵活性。

由此,整个流程形成了清晰的分工协作:第一层负责守住明确的安全边界,第二层负责保证灵活可用。这使得该方案更像一个考虑了安全与体验平衡的工程系统,而非单一的技术技巧。

2. 方案价值的深度解析:重新定义防御依据

这篇论文真正值得关注之处,并不在于其设计了两层校验,而在于它从根本上重新定义了AI智能体安全防御的依据

许多传统安全方案的默认逻辑是:模型看到恶意内容 → 期望模型能识别出来 → 期望模型能拒绝执行 → 期望模型足够稳定可靠。这条路径的问题在于,它将过多希望寄托于“模型自身足够可靠”这一假设上。然而,一旦AI智能体开始操作真实工具、触及真实资产,单靠“模型应该懂得拒绝”是远远不够的,风险会直接传导至业务层。

PlanGuard的思路更接近系统工程思维:不预先假设模型永远可靠,而是先假设外部内容可能污染上下文;进而将“定义执行边界”这一关键环节独立出来、提前完成;让后续真实的工具调用,必须经过这份独立制定的计划的额外核验。它更像是在AI智能体外部构建了一层“执行控制面”,这层控制面不负责生成具体内容,只负责回答一个权限问题:你当前这一步操作,到底有没有执行的资格。 从产品架构和落地实践的角度看,这种思路比单纯“训练一个更聪明的防御模型”更具可操作性和长期价值。

3. 实验效果与核心发现

论文使用InjecAgent基准进行评测,任务覆盖了多种工具调用场景,包括可直接造成危害的操作以及可能导致隐私数据外泄的场景。

实验结果中最值得注意的发现是:在没有任何防护措施的情况下,AI智能体在间接攻击下的成功越狱率相当高。 这表明,只要外部恶意内容设计得足够巧妙,诱导Agent执行用户未授权的操作并非难事。

引入PlanGuard防护机制后,攻击成功率被显著压低。特别是第一层硬规则校验,其本身就能拦截大部分明显的越界动作;再叠加第二层语义复核,整体的误报率也能得到明显改善,在安全性与可用性之间取得了更好的平衡。

这个结果反映出的,不仅是“方案有效”,更揭示了一个关键问题:AI智能体安全的核心瓶颈,往往不在于模型生成的内容质量,而在于工具调用前是否有一个可靠、独立的检查关口。 对于普通的对话模型,一次错误回答的风险可能仅停留在内容层面;但对具备工具调用能力的Agent而言,一次错误的工具调用,其风险会直接落到资产、数据和系统操作层。因此,对Agent的防御绝不能只停留在输入检测和输出审查上,必须深入到“动作执行”层面。

4. 方案的局限性探讨

当然,PlanGuard方案也存在其固有的局限性。

第一,存在额外的系统开销。 由于增加了一套隔离规划和分层校验流程,系统的推理次数、响应时延和Token消耗成本都会相应增加。对于轻量级、低风险的交互场景,这可能不是最优选择;但对于涉及高权限操作、高价值资产的任务,这类为安全付出的额外成本通常是必要且值得的。

第二,更擅长拦截“越界动作”,对复杂参数问题的处理仍有挑战。 有些任务天然高度依赖外部上下文,例如“支付这封邮件里指定的账单”、“根据附件内容自动填写表单”。此时,“该不该调用支付工具”相对容易判断,但“支付给谁、支付多少金额、表单各字段应填何值”这些具体参数又必须从外部上下文中提取。这就形成了一个张力:参考计划隔离得越彻底,安全性越高,但对这类复杂、动态参数的核验能力就越弱。因此,该方法更适合作为“动作边界控制层”,而非万能的“上下文真实性验证器”。

第三,第二层的语义判断依然依赖模型能力。 虽然第二层比纯规则匹配更灵活,能处理模糊情况,但它本质上仍是一层基于模型的判断。这意味着它能显著改善系统的可用性,但并不提供绝对形式化的安全保证。这一点论文作者也进行了坦诚的说明。

5. 对AI智能体落地的三点启发

将这篇论文的核心思路置于更广泛的AI智能体落地场景中,可以提炼出三点极具实践价值的启发。

第一,高风险操作应与外部内容进行“隔离”。 凡是涉及发送邮件、执行支付、修改文件、运行命令、变更系统配置、向外部系统提交数据等高权限能力的工具调用,其执行决策都不应直接由可能被污染的上下文驱动。在执行之前,最好都引入一个独立的、基于可信计划的核验流程。

第二,工具权限管理不应仅是静态白名单。 传统的权限控制回答的是“用户/角色是否有权使用某个工具”;而在AI智能体场景中,还需要动态回答“在当前这轮具体任务上下文里,这个工具该不该出现”。PlanGuard的参考计划,本质上是一种动态的任务级白名单,它不是授予用户永久权限,而是为当前特定任务定义临时的、最小化的执行边界。这一点尤其适用于企业级AI助手、办公自动化Agent或多工具协同的工作流场景。

第三,安全校验机制宜采用分层设计。 单一依赖规则,容易导致误杀,影响体验;单一依赖模型,安全边界又不够清晰和强硬。更工程化的做法是进行分层处理:先用确定性高的规则守住最明显的安全边界;再用语义模型校验处理模糊和复杂的边缘情况;对于极高风险的操作,则可进一步接入审计日志、二次确认或人工审核兜底机制。这样既能保证安全防护的硬度,又能维持系统的整体可用性和灵活性。

6. 总结:从“内容护栏”到“动作清单”

归根结底,这篇论文的核心贡献可以用“可信动作清单”这一概念来理解。它所做的不是给AI智能体的行为贴上一个模糊的“安全/不安全”标签,而是提前明确:为了完成当前任务,系统允许执行哪些具体动作?这些动作的合理边界在哪里? 清单之外的动作一律不执行,接近边界的动作则进入复核流程。

这比常见的“内容安全护栏”更贴近AI智能体真正的风险点。内容护栏主要解决的是“说什么”的问题,而可信动作清单则着力解决“做什么”的问题。在AI智能体日益深入现实工作流程、开始操作真实系统的时代,后者的重要性和紧迫性只会越来越高。为AI智能体构建清晰、可靠的动作执行边界,是确保其安全、可控落地的关键一步。

来源:https://www.51cto.com/article/841649.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

防范Agent间接越狱攻击的工程实践可信动作清单
AI
防范Agent间接越狱攻击的工程实践可信动作清单

今天我们来深入探讨一个日益紧迫的现实挑战:当AI智能体(Agent)开始自主处理邮件、浏览网页、操作各类工具时,如何确保其行为不被恶意内容“带偏”?近期一篇题为《PlanGuard: Action-Level Guardrails for Language Agents via Reference

热心网友
05.18
阿里千问接入淘宝购物助手功能上线
科技数码
阿里千问接入淘宝购物助手功能上线

5月11日,阿里巴巴集团发布重要公告,标志着AI电商的愿景正式步入现实。其自主研发的通义千问大模型已与淘宝平台实现全面深度集成。这意味着,用户现在可以直接在千问App中通过自然语言对话,轻松完成淘宝商品的搜索、智能比价、优惠计算乃至一键下单;同时,在淘宝App内点击“千问AI购物助手”,也能即刻启用

热心网友
05.17
蛇之凝视5月25日抢先体验 魂系肉鸽动作RPG游戏上线
游戏资讯
蛇之凝视5月25日抢先体验 魂系肉鸽动作RPG游戏上线

动作RPG《Serpent’sGaze》将于5月25日在Steam开启抢先体验,支持中文。游戏融合魂系风格与肉鸽玩法,背景设定于古老荒漠,包含挑战性头目战与剧情秘密。战斗强调策略操作,提供多样武器与成长路径,关卡鼓励反复挑战。支持最多四人合作或单人探索。

热心网友
05.17
Far Far West 全表情动作解锁攻略
游戏攻略
Far Far West 全表情动作解锁攻略

在《Far Far West》的狂野西部世界中,牛仔的个性不仅体现在精准的枪法和标志性的宽边帽上。那些充满戏剧张力的表情与动作——无论是胜利时刻的激情鼓掌,还是对决前夕的庄严敬礼——都是你无声的个人名片。毕竟,一位真正的西部传奇,怎能没有极具表现力的沟通方式? 游戏中所有这些彰显个人风格的专属动画,

热心网友
05.16
谷歌或将Chromebook更名为ChromeOS电脑
科技数码
谷歌或将Chromebook更名为ChromeOS电脑

谷歌计划联合多家主流PC厂商,将Chromebook品牌升级为“Googlebook”。新产品将深度集成Gemini等AI服务,并强化与安卓设备的跨端协同。其具体功能与可能搭载的新操作系统,有望在即将举行的谷歌活动中揭晓。

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

生数科技Motubrain动作模型发布引领机器人智能新纪元
AI
生数科技Motubrain动作模型发布引领机器人智能新纪元

机器人行业迎来里程碑式突破。以视频生成模型Vidu著称的生数科技,正式发布了名为Motubrain的“世界动作模型”。这并非一次普通迭代,而是被定位为机器人的“物理大脑”,其核心目标在于:用一个统一的通用模型,彻底取代以往依赖多个专用系统拼凑而成的复杂架构。 正如其“一个大脑,无限可能”的口号所揭示

热心网友
05.18
xAI发布编程助手Grok Build 进军AI编程工具市场
AI
xAI发布编程助手Grok Build 进军AI编程工具市场

xAI正式进军AI编程智能体领域,于近日发布了专为软件工程与复杂编程任务设计的Grok Build。 简单来说,Grok Build是一款能在终端里直接跑起来的AI编程助手。它被定位为一个具备智能体能力的命令行工具,开发者用自然语言告诉它要做什么,它就能生成代码,甚至帮你搞定一系列编程和自动化任务。

热心网友
05.18
谷歌更新垃圾内容规则 AI操纵行为将被处罚
AI
谷歌更新垃圾内容规则 AI操纵行为将被处罚

近日,谷歌对其搜索引擎的核心规则进行了重要更新,此次调整直指当前备受关注的AI搜索领域。具体而言,谷歌在其垃圾内容政策中新增了明确条款,正式将“操纵AI搜索结果”的行为列为违规操作,划定了新的质量红线。 根据权威行业媒体Search Engine Land的报道,本次谷歌算法更新的核心在于,将任何企

热心网友
05.18
太浩湖能源危机:AI产业推高电价冲击硅谷后花园
AI
太浩湖能源危机:AI产业推高电价冲击硅谷后花园

硅谷的科技巨头们或许曾以为,自己已经远离了AI数据中心带来的电力压力——毕竟,高昂的地价和电费早就把大型数据中心项目“赶”到了别处。但现实总是出人意料,这场能源危机的涟漪,正悄然涌向他们心爱的度假后院。 没错,说的就是太浩湖。这个湾区精英们钟爱的避世天堂,如今正站在一场电力风暴的边缘。距离它必须找到

热心网友
05.18
高通新架构实现AI深度思考:推理更智能且大幅节省内存资源
AI
高通新架构实现AI深度思考:推理更智能且大幅节省内存资源

这项由高通AI研究院(Qualcomm AI Research)主导的创新研究于2026年5月正式发布,论文预印本编号为arXiv:2605 07721。 研究背景:当AI越想越费内存,我们该怎么办 设想一下,手机导航应用会在出发前规划好整条路线,而一位真正智慧的向导则会边走边思考,遇到路障时灵活应

热心网友
05.18