首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
对话邓智航从龙虾智能体到多智能体网络的安全架构演进

对话邓智航从龙虾智能体到多智能体网络的安全架构演进

热心网友
67
转载
2026-05-20

OpenClaw 的迅速走红,将一个原本更多局限于技术圈内的演进趋势,突然变得清晰可感。

当一个智能体(Agent)能够跨越不同应用程序执行任务、调用各类工具,并在几乎无需人工干预的情况下完成复杂流程时,人们首次直观地认识到:AI 正从“生成内容的辅助工具”,演变为“参与实际行动的决策主体”。也正是这一刻,其伴生的安全问题被急速推至聚光灯下。

然而,一个更值得关注的现象是,在目前几乎所有关于智能体安全的探讨中,问题的定义依然高度集中于模型层面:输入是否遭遇注入攻击、输出是否超越边界、价值对齐是否失效。这种讨论路径本身并无错误,但它隐含了一个前提,即安全威胁主要发生于“模型”这一个单点之上。

关键在于,这个前提可能正在过时。当智能体不再仅仅被动响应指令,而是持续接收来自多元渠道的信息、在由多组件构成的架构中进行决策、并通过一系列工具链将决策转化为现实世界的具体操作时,“安全”所指向的对象,早已不再是单一的模型,而是一个由模型、记忆模块、工具集、运行环境以及交互链路共同构成的复杂系统。

在这样的系统性架构中,风险未必以“错误的内容输出”形式呈现,也未必以“瞬间的全面失控”方式爆发。它可能表现为决策逻辑在过程中的缓慢偏移、风险信息在链路传递中被无意放大或扭曲,甚至是跨越不同组件、不同智能体主体之间产生的相互影响与连锁反应。

这同时也意味着,智能体安全的核心议题,正在从追问“它是否安全”,转向探究“它如何被影响”。

在题为《From Secure Agentic AI to Secure Agentic Web》的论文中,上海交通大学与上海创智学院的张伟楠教授团队,正是从这一根本性转变出发,尝试将智能体安全从模型层面的鲁棒性问题,重新置于系统结构与动态运行机制之中进行审视与讨论。

围绕这一前沿议题,AI科技评论与论文第一作者邓智航进行了深度对话。下文在忠实于原意的基础上,对访谈内容进行了梳理与呈现,旨在系统还原其关于智能体安全问题“从模型走向系统”的整体思考框架。

对话邓智航|以「龙虾」为起点,起底从单个 Agent 到 Agentic Web 的安全重构

智能体安全,我们是否理解有误?

近期 OpenClaw 的爆火,让众多开发者开始关注智能体安全,但观察可见,讨论焦点几乎仍集中在提示词注入(Prompt Injection)、模型越狱等传统问题上。这实际上反映了一个普遍存在的认知误区。

当前多数关于智能体安全的讨论,依然停留在这些相对“表层”的挑战上,其本质仍是关注模型的最终输出。然而,现代智能体已不再是一个仅生成文本的孤立系统。过去的聊天机器人,本质是文本输入与文本输出的闭环;而如今的智能体会主动调用工具、写入长期记忆,并持续与外部动态环境进行交互。

在此背景下,安全问题的重心必须发生根本性转移,即从“模型会不会输出有害内容”,转向“整个智能体系统在开放、不确定的环境中是否整体可控、行为可审计、权限可约束”。这是当前视角最重要的变化。

这意味着,风险已不止于“说错话”,而是能真实地影响物理世界。因为智能体现在具备调用工具和操作外部系统的能力,其行为不再局限于内容生成层,而是可以直接转化为现实行动。例如,它可以删除关键文件、泄露用户隐私数据,甚至在获取敏感信息后,自动调用邮件系统发送给攻击者。因此,当前的问题不仅是“生成内容是否安全”,更是“其执行的操作是否安全”,这一变化是本质性的。

那么,驱动这种质变的核心因素是什么?许多人会归因于工具调用能力。工具调用固然关键,但如果必须选择一个更核心的要素,那应是智能体在开放环境中的自主行动能力。工具调用本质上是能力扩展的接口,它赋予智能体更多操作可能,但真正令安全问题发生质变的,是智能体开始在一个动态、复杂、甚至存在对抗性的环境中,进行持续感知、独立判断并自主执行。

例如,网页中的动态内容、文档内嵌的信息、第三方服务返回的数据流,都会持续进入智能体的决策流程,共同构成一个更庞大、更不可控的风险暴露面。因此,关键不只是“能否调用工具”,而是“在何种环境中行动,以及如何基于环境信息进行行动”。

在论文中,研究团队将威胁划分为提示词、环境、记忆、工具链等不同类别。若从攻击者视角审视,这些攻击方式存在一个高度统一的本质:争夺对智能体决策过程的控制权。无论是提示词攻击、环境信息注入、长期记忆投毒,还是工具链上的漏洞,它们表面上发生在不同模块,但本质上都是在影响智能体的认知框架与决策逻辑。

因此,安全问题的核心,并非某个独立漏洞被触发,而是智能体在看似运行正常的表象下,被悄然引导至偏离预期的轨道。这种“决策控制权的隐性转移”,才是所有攻击共性的关键。

既然提及环境,是否可以理解为,外部世界本身就是智能体的主要输入源?这个理解是正确的。对人类而言,网页主要用于阅读和判断信息;但对智能体而言,它通常不会像人类一样进行复杂的价值判断,而是倾向于将网页内容、文件数据以及工具返回的结果直接作为输入,用以影响其任务规划与行为决策。

因此,从系统安全工程的角度看,我们需要将整个外部环境都视为潜在的攻击面,即默认其可能包含恶意意图,而非默认其可信。

如果有人认为,通过精心设计的系统提示词(System Prompt)和严格的拒答机制,就足以解决大部分安全问题,这种想法是远远不够的。首先,系统提示词本身就可能被篡改或绕过;其次,许多高级攻击并非通过用户直接输入发起,而是来自网页内容、工具返回信息,甚至是智能体间通信数据。

因此,系统提示词和拒答机制更多只是第一道防护栏,它们虽重要,但无法覆盖整个智能体系统的全部攻击面。真正可靠的安全方案,需要将细粒度的工具权限控制、运行时的行为监控、协议级的交互校验以及持续的红队对抗测试结合起来,从而构建一个纵深防御的安全体系。本质上,这是一个需要生态协同解决的系统级问题。

在论文中,团队将工具链风险类比为“供应链安全”问题。这个类比非常直观。风险不一定源于模型本身,也可能来自其依赖的第三方工具、API接口或插件。例如,一个被污染的工具提供方、一个返回结果不可靠的接口,或多个单独看似乎安全的工具在组合调用时产生非预期的联动效应,都可能导致严重后果。因此,在智能体系统中,工具链实质上构成了一个软件供应链,其安全问题也随之演变为供应链安全问题。

那么,像 MCP(Model Context Protocol)这类统一工具调用协议,一方面提升了能力互操作性,另一方面是否也同步放大了风险?这种双重性确实非常明显。一方面,MCP 提供了统一的上下文管理及工具交互标准,使得不同系统间能更便捷地协作,极大提升了智能体的能力上限。但另一方面,它作为一个集中化的统一入口,也将权限管理、信任建立以及潜在的污染风险集中并放大了。

因此,关键不在于是否要使用 MCP,而在于在采纳这些强大能力的同时,是否同步设计并部署了与之匹配的安全机制。本质上,能力越强大,对应的风险暴露面和攻击面也越大。

当前围绕智能体安全的讨论中,哪些风险可能被高估了,哪些又被低估了?被高估的,主要是那些易于被发现和演示的风险,例如单轮对话的越狱或即时性攻破。这类问题因其直观性,更容易吸引关注。而被严重低估的,则是一些更贴近真实长期部署场景的问题,例如长期记忆的缓慢污染、智能体网络中的风险传播效应,以及决策行为的渐进式偏移。

这些问题通常不会立即爆发,也难以被常规检测手段察觉,但会在长期运行中持续且隐蔽地影响智能体的行为模式。一次更“高明”的攻击,不会让智能体当场崩溃,而是会逐步改变其偏好设定、信任锚点及决策倾向,使其在大量看似正常的日常决策中持续发生微小偏移。这种长期、潜伏性的风险更值得警惕。

挑战,已不止于单个智能体

如果智能体之间相互连接形成网络(Agentic Web),会带来哪些全新的安全变化?一个至关重要的变化是,我们过去在互联网中有一个默认前提,即网络请求的另一端大概率是人类用户,许多现有的信任关系与安全机制都建立在这一隐含假设之上。但在智能体网络中,这个前提被彻底打破,因为请求很可能来自另一个自主运行的智能体,甚至是经过多层智能体委托和自动决策链转发的。

这就意味着,原先依赖人类常识和意图所建立的隐式信任关系已不再成立,必须转变为显式、可验证、可审计且可追踪的信任与授权机制。

这是否也意味着,一旦发生安全事件,责任追溯将变得极其困难?是的,这是一个非常现实的治理挑战。如果是人类说错话,我们可以直接追责到个人;但如果是智能体出现问题,我们很难快速判定是它自身逻辑错误,还是被其他智能体恶意误导,亦或是某个中间通信环节被污染。

在这种情况下,就必须依赖一整套完备的行为审计与事件追溯机制,否则调查过程将如同追踪一笔经过多层洗转的资金链条,异常困难且成本高昂。

那么,是否会出现一种不立即触发警报,而是长期潜伏、缓慢施加影响的攻击?这种情况不仅可能,而且概率很高。一种更成熟的攻击策略,不会立刻制造一个可被监测系统发现的事故,而是会悄无声息地改变智能体的行为偏好、信任库以及决策权重,让它在无数看似正常的微小决策中持续发生不易察觉的漂移。相比瞬间的、显性的失控,这种长期的行为漂移实际上更为危险,因为它更具隐蔽性,也更难以通过传统安全检测手段发现。

那么,智能体能力与安全性之间的矛盾应如何处理?这是一个不可避免的内在张力。智能体的能力越强,意味着其可访问的上下文更广、可调用的工具更多、自主性更高,但相应的潜在风险也呈指数级增加。反之,如果将权限过度收紧,其能力又会受到严重限制。

因此,问题的核心不在于能否彻底消除这种张力,而在于能否通过系统设计,将其转化为一个可控、可管理的状态。例如,通过实施分级授权机制、建立实时行为监测系统、以及构建完善的事后审计与追溯能力,来系统性地管理这种能力与安全之间的平衡。

未来两到三年,智能体安全发展的分水岭可能会出现在哪里?关键在于,整个行业能否将身份认证、动态授权、行为溯源以及运行时治理等核心安全能力,真正打造成可复用的基础设施。如果这些安全基础设施能够建立起来,智能体才有可能从当前“功能强大但风险未知”的探索期,走向“可规模化扩展且安全可治理”的成熟阶段。

如果仅仅依赖提示词工程或零散的补丁式防御,一旦智能体开始大规模接入开放网络并与现实系统深度交互,现有方式将完全无法支撑其安全需求。

这种“安全基础设施”,可能会以何种形式呈现?具体形态仍需行业共同探索,但可以做一个类比。两年前没有 MCP 协议时,各家的工具调用方式千差万别,系统间难以互通。而 MCP 出现后,通过统一协议,工具调用层实现了标准化,从而显著提升了整个生态的互操作性与能力上限。

未来的核心安全机制,也有可能以类似的“安全协议”或“标准框架”形式出现,通过定义统一的安全交互协议、审计数据格式和治理接口,让整个智能体生态在高效运行的同时,具备内生、可验证的安全能力。

对话邓智航|以「龙虾」为起点,起底从单个 Agent 到 Agentic Web 的安全重构

来源:https://www.leiphone.com/category/ai/iXImSdRxxrL8er4F.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw与WorkBuddy等工具深度对比 从原理到选购指南
AI资讯
OpenClaw与WorkBuddy等工具深度对比 从原理到选购指南

近年来,能够直接“动手操作电脑”的AI智能体彻底改变了人机交互的格局。从最早的开源框架OpenClaw,到后来陆续出现的Molili、腾讯QClaw,再到面向职场的WorkBuddy,许多用户感到困惑:这几款AI助手到底是什么关系?谁基于谁开发?普通用户究竟应该选择安装哪一个? 本文不讲空泛概念,将

热心网友
05.20
对话邓智航从龙虾智能体到多智能体网络的安全架构演进
AI资讯
对话邓智航从龙虾智能体到多智能体网络的安全架构演进

OpenClaw 的迅速走红,将一个原本更多局限于技术圈内的演进趋势,突然变得清晰可感。 当一个智能体(Agent)能够跨越不同应用程序执行任务、调用各类工具,并在几乎无需人工干预的情况下完成复杂流程时,人们首次直观地认识到:AI 正从“生成内容的辅助工具”,演变为“参与实际行动的决策主体”。也正是

热心网友
05.20
Gartner预测AI重塑就业市场每年影响3200万岗位
AI资讯
Gartner预测AI重塑就业市场每年影响3200万岗位

2025年还没过完,美国已经有近5 5万个岗位被AI直接“蒸发”了。就在一片“就业末日”的恐慌中,咨询巨头Gartner却抛出了一个截然不同的观点:没有末日,只有一场“岗位狂飙”前的阵痛。问题是,你准备好被彻底打碎,然后重塑了吗? 第一波由AI驱动的裁员潮,已经实实在在地拍了过来。 硅谷支付巨头Bl

热心网友
05.20
AI音乐创作神器SoundRaw:一键生成你的专属原创音乐
AI教程
AI音乐创作神器SoundRaw:一键生成你的专属原创音乐

在内容创作过程中,背景音乐的选择常常是关键且繁琐的环节。传统方式往往面临版权成本高昂、风格匹配困难等问题。如今,随着AI音乐生成技术的发展,创作者们迎来了全新的解决方案。其中,SoundRaw AI 作为一款专注于服务内容创作者的智能音乐生成工具,以其明确的定位和高效的操作体验,受到了广泛关注。 简

热心网友
05.20
2025年AI代币暴涨55%后如何利用行情网站精准捕捉下一个机会
web3.0
2025年AI代币暴涨55%后如何利用行情网站精准捕捉下一个机会

在行情网站上发现AI代币暴涨55%的机会:一份实战指南 想在行情网站上捕捉到类似AI代币暴涨55%的机会吗?核心其实在于深度利用网站的分类追踪、数据筛选和成交量异动监测功能。长期关注人工智能板块,并针对性地设置警报——比如24小时成交量激增超过特定阈值,或是价格突破关键阻力位——往往能在市场普遍察觉

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

AI文档助手理想编审选择指南
AI教程
AI文档助手理想编审选择指南

人工智能的浪潮正席卷每个角落,智能办公工具无疑是其中备受瞩目的弄潮儿。以自然语言处理和机器学习为内核的AI文档助手,承诺用高效与精准重塑我们的文字工作。但一个值得玩味的问题随之浮现:它究竟是一场碘伏传统的革命性创新,还是更像一位得力的职业伙伴? AI文档助手的革命性创新 不得不说,AI文档助手的出现

热心网友
05.20
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式
AI资讯
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式

2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策

热心网友
05.20
雷蛇鸣潮达妮娅联名外设系列将于2026年5月20日正式发售
科技数码
雷蛇鸣潮达妮娅联名外设系列将于2026年5月20日正式发售

雷蛇与《鸣潮》联名的达妮娅主题外设系列将于2026年5月20日推出,涵盖无线鼠标、机械键盘、电竞椅和超大鼠标垫四款产品。系列兼顾轻量化设计、高性能硬件与角色主题元素,致力于为玩家打造兼具操作性能与沉浸氛围的全方位游戏体验。

热心网友
05.20
极限竞速地平线6评测 开放世界赛车游戏进化详解
科技数码
极限竞速地平线6评测 开放世界赛车游戏进化详解

《极限竞速:地平线6》登陆Xbox与PC平台,首次将舞台设定于日本。本作画质显著提升,以丰富细节呈现东京霓虹、樱花林与山间晨雾。玩法上重构开局身份,玩家需从普通访客逐步成长为传奇车手,并引入庄园系统与探索乐趣。游戏对硬件性能要求较高,但借助DLSS4等技术可实现画质与流畅度的平衡。

热心网友
05.20
AI表格制作教程:零基础一键生成动态数据图表
AI教程
AI表格制作教程:零基础一键生成动态数据图表

人工智能正改变传统表格制作方式,通过自然语言指令自动生成表格与图表,显著提升工作效率。人机协作虽带来便利,确保数据准确性仍是关键。未来更智能的预测功能值得期待,但使用者仍需掌握数据分析基本功,以充分释放数据价值。

热心网友
05.20