对话邓智航从龙虾智能体到多智能体网络的安全架构演进_AI热点日报

OpenClaw 的迅速走红，将一个原本更多局限于技术圈内的演进趋势，突然变得清晰可感。当一个智能体（Agent）能够跨越不同应用程序执行任务、调用各类工具，并在几乎无需人工干预的情况下完成复杂流程时，人们首次直观地认识到：AI 正从“生成内容的辅助工具”，演变为“参与实际行动的决策主体”。也正是

OpenClaw 的迅速走红，将一个原本更多局限于技术圈内的演进趋势，突然变得清晰可感。

当一个智能体（Agent）能够跨越不同应用程序执行任务、调用各类工具，并在几乎无需人工干预的情况下完成复杂流程时，人们首次直观地认识到：AI 正从“生成内容的辅助工具”，演变为“参与实际行动的决策主体”。也正是这一刻，其伴生的安全问题被急速推至聚光灯下。

然而，一个更值得关注的现象是，在目前几乎所有关于智能体安全的探讨中，问题的定义依然高度集中于模型层面：输入是否遭遇注入攻击、输出是否超越边界、价值对齐是否失效。这种讨论路径本身并无错误，但它隐含了一个前提，即安全威胁主要发生于“模型”这一个单点之上。

关键在于，这个前提可能正在过时。当智能体不再仅仅被动响应指令，而是持续接收来自多元渠道的信息、在由多组件构成的架构中进行决策、并通过一系列工具链将决策转化为现实世界的具体操作时，“安全”所指向的对象，早已不再是单一的模型，而是一个由模型、记忆模块、工具集、运行环境以及交互链路共同构成的复杂系统。

在这样的系统性架构中，风险未必以“错误的内容输出”形式呈现，也未必以“瞬间的全面失控”方式爆发。它可能表现为决策逻辑在过程中的缓慢偏移、风险信息在链路传递中被无意放大或扭曲，甚至是跨越不同组件、不同智能体主体之间产生的相互影响与连锁反应。

这同时也意味着，智能体安全的核心议题，正在从追问“它是否安全”，转向探究“它如何被影响”。

在题为《From Secure Agentic AI to Secure Agentic Web》的论文中，上海交通大学与上海创智学院的张伟楠教授团队，正是从这一根本性转变出发，尝试将智能体安全从模型层面的鲁棒性问题，重新置于系统结构与动态运行机制之中进行审视与讨论。

围绕这一前沿议题，AI科技评论与论文第一作者邓智航进行了深度对话。下文在忠实于原意的基础上，对访谈内容进行了梳理与呈现，旨在系统还原其关于智能体安全问题“从模型走向系统”的整体思考框架。

对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安全重构

智能体安全，我们是否理解有误？

近期 OpenClaw 的爆火，让众多开发者开始关注智能体安全，但观察可见，讨论焦点几乎仍集中在提示词注入（Prompt Injection）、模型越狱等传统问题上。这实际上反映了一个普遍存在的认知误区。

当前多数关于智能体安全的讨论，依然停留在这些相对“表层”的挑战上，其本质仍是关注模型的最终输出。然而，现代智能体已不再是一个仅生成文本的孤立系统。过去的聊天机器人，本质是文本输入与文本输出的闭环；而如今的智能体会主动调用工具、写入长期记忆，并持续与外部动态环境进行交互。

在此背景下，安全问题的重心必须发生根本性转移，即从“模型会不会输出有害内容”，转向“整个智能体系统在开放、不确定的环境中是否整体可控、行为可审计、权限可约束”。这是当前视角最重要的变化。

这意味着，风险已不止于“说错话”，而是能真实地影响物理世界。因为智能体现在具备调用工具和操作外部系统的能力，其行为不再局限于内容生成层，而是可以直接转化为现实行动。例如，它可以删除关键文件、泄露用户隐私数据，甚至在获取敏感信息后，自动调用邮件系统发送给攻击者。因此，当前的问题不仅是“生成内容是否安全”，更是“其执行的操作是否安全”，这一变化是本质性的。

那么，驱动这种质变的核心因素是什么？许多人会归因于工具调用能力。工具调用固然关键，但如果必须选择一个更核心的要素，那应是智能体在开放环境中的自主行动能力。工具调用本质上是能力扩展的接口，它赋予智能体更多操作可能，但真正令安全问题发生质变的，是智能体开始在一个动态、复杂、甚至存在对抗性的环境中，进行持续感知、独立判断并自主执行。

例如，网页中的动态内容、文档内嵌的信息、第三方服务返回的数据流，都会持续进入智能体的决策流程，共同构成一个更庞大、更不可控的风险暴露面。因此，关键不只是“能否调用工具”，而是“在何种环境中行动，以及如何基于环境信息进行行动”。

在论文中，研究团队将威胁划分为提示词、环境、记忆、工具链等不同类别。若从攻击者视角审视，这些攻击方式存在一个高度统一的本质：争夺对智能体决策过程的控制权。无论是提示词攻击、环境信息注入、长期记忆投毒，还是工具链上的漏洞，它们表面上发生在不同模块，但本质上都是在影响智能体的认知框架与决策逻辑。

因此，安全问题的核心，并非某个独立漏洞被触发，而是智能体在看似运行正常的表象下，被悄然引导至偏离预期的轨道。这种“决策控制权的隐性转移”，才是所有攻击共性的关键。

既然提及环境，是否可以理解为，外部世界本身就是智能体的主要输入源？这个理解是正确的。对人类而言，网页主要用于阅读和判断信息；但对智能体而言，它通常不会像人类一样进行复杂的价值判断，而是倾向于将网页内容、文件数据以及工具返回的结果直接作为输入，用以影响其任务规划与行为决策。

因此，从系统安全工程的角度看，我们需要将整个外部环境都视为潜在的攻击面，即默认其可能包含恶意意图，而非默认其可信。

如果有人认为，通过精心设计的系统提示词（System Prompt）和严格的拒答机制，就足以解决大部分安全问题，这种想法是远远不够的。首先，系统提示词本身就可能被篡改或绕过；其次，许多高级攻击并非通过用户直接输入发起，而是来自网页内容、工具返回信息，甚至是智能体间通信数据。

因此，系统提示词和拒答机制更多只是第一道防护栏，它们虽重要，但无法覆盖整个智能体系统的全部攻击面。真正可靠的安全方案，需要将细粒度的工具权限控制、运行时的行为监控、协议级的交互校验以及持续的红队对抗测试结合起来，从而构建一个纵深防御的安全体系。本质上，这是一个需要生态协同解决的系统级问题。

在论文中，团队将工具链风险类比为“供应链安全”问题。这个类比非常直观。风险不一定源于模型本身，也可能来自其依赖的第三方工具、API接口或插件。例如，一个被污染的工具提供方、一个返回结果不可靠的接口，或多个单独看似乎安全的工具在组合调用时产生非预期的联动效应，都可能导致严重后果。因此，在智能体系统中，工具链实质上构成了一个软件供应链，其安全问题也随之演变为供应链安全问题。

那么，像 MCP（Model Context Protocol）这类统一工具调用协议，一方面提升了能力互操作性，另一方面是否也同步放大了风险？这种双重性确实非常明显。一方面，MCP 提供了统一的上下文管理及工具交互标准，使得不同系统间能更便捷地协作，极大提升了智能体的能力上限。但另一方面，它作为一个集中化的统一入口，也将权限管理、信任建立以及潜在的污染风险集中并放大了。

因此，关键不在于是否要使用 MCP，而在于在采纳这些强大能力的同时，是否同步设计并部署了与之匹配的安全机制。本质上，能力越强大，对应的风险暴露面和攻击面也越大。

当前围绕智能体安全的讨论中，哪些风险可能被高估了，哪些又被低估了？被高估的，主要是那些易于被发现和演示的风险，例如单轮对话的越狱或即时性攻破。这类问题因其直观性，更容易吸引关注。而被严重低估的，则是一些更贴近真实长期部署场景的问题，例如长期记忆的缓慢污染、智能体网络中的风险传播效应，以及决策行为的渐进式偏移。

这些问题通常不会立即爆发，也难以被常规检测手段察觉，但会在长期运行中持续且隐蔽地影响智能体的行为模式。一次更“高明”的攻击，不会让智能体当场崩溃，而是会逐步改变其偏好设定、信任锚点及决策倾向，使其在大量看似正常的日常决策中持续发生微小偏移。这种长期、潜伏性的风险更值得警惕。

挑战，已不止于单个智能体

如果智能体之间相互连接形成网络（Agentic Web），会带来哪些全新的安全变化？一个至关重要的变化是，我们过去在互联网中有一个默认前提，即网络请求的另一端大概率是人类用户，许多现有的信任关系与安全机制都建立在这一隐含假设之上。但在智能体网络中，这个前提被彻底打破，因为请求很可能来自另一个自主运行的智能体，甚至是经过多层智能体委托和自动决策链转发的。

这就意味着，原先依赖人类常识和意图所建立的隐式信任关系已不再成立，必须转变为显式、可验证、可审计且可追踪的信任与授权机制。

这是否也意味着，一旦发生安全事件，责任追溯将变得极其困难？是的，这是一个非常现实的治理挑战。如果是人类说错话，我们可以直接追责到个人；但如果是智能体出现问题，我们很难快速判定是它自身逻辑错误，还是被其他智能体恶意误导，亦或是某个中间通信环节被污染。

在这种情况下，就必须依赖一整套完备的行为审计与事件追溯机制，否则调查过程将如同追踪一笔经过多层洗转的资金链条，异常困难且成本高昂。

那么，是否会出现一种不立即触发警报，而是长期潜伏、缓慢施加影响的攻击？这种情况不仅可能，而且概率很高。一种更成熟的攻击策略，不会立刻制造一个可被监测系统发现的事故，而是会悄无声息地改变智能体的行为偏好、信任库以及决策权重，让它在无数看似正常的微小决策中持续发生不易察觉的漂移。相比瞬间的、显性的失控，这种长期的行为漂移实际上更为危险，因为它更具隐蔽性，也更难以通过传统安全检测手段发现。

那么，智能体能力与安全性之间的矛盾应如何处理？这是一个不可避免的内在张力。智能体的能力越强，意味着其可访问的上下文更广、可调用的工具更多、自主性更高，但相应的潜在风险也呈指数级增加。反之，如果将权限过度收紧，其能力又会受到严重限制。

因此，问题的核心不在于能否彻底消除这种张力，而在于能否通过系统设计，将其转化为一个可控、可管理的状态。例如，通过实施分级授权机制、建立实时行为监测系统、以及构建完善的事后审计与追溯能力，来系统性地管理这种能力与安全之间的平衡。

未来两到三年，智能体安全发展的分水岭可能会出现在哪里？关键在于，整个行业能否将身份认证、动态授权、行为溯源以及运行时治理等核心安全能力，真正打造成可复用的基础设施。如果这些安全基础设施能够建立起来，智能体才有可能从当前“功能强大但风险未知”的探索期，走向“可规模化扩展且安全可治理”的成熟阶段。

如果仅仅依赖提示词工程或零散的补丁式防御，一旦智能体开始大规模接入开放网络并与现实系统深度交互，现有方式将完全无法支撑其安全需求。

这种“安全基础设施”，可能会以何种形式呈现？具体形态仍需行业共同探索，但可以做一个类比。两年前没有 MCP 协议时，各家的工具调用方式千差万别，系统间难以互通。而 MCP 出现后，通过统一协议，工具调用层实现了标准化，从而显著提升了整个生态的互操作性与能力上限。

未来的核心安全机制，也有可能以类似的“安全协议”或“标准框架”形式出现，通过定义统一的安全交互协议、审计数据格式和治理接口，让整个智能体生态在高效运行的同时，具备内生、可验证的安全能力。

对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安全重构

对话邓智航从龙虾智能体到多智能体网络的安全架构演进

智能体安全，我们是否理解有误？

挑战，已不止于单个智能体

相关热点

延伸阅读