首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
上海AILab研究:Agent自进化风险与错误进化应对策略

上海AILab研究:Agent自进化风险与错误进化应对策略

热心网友
53
转载
2025-10-16

当智能体(Agent)学会了自我进化,我们距离实现通用人工智能(AGI)还有多远?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

从自动编写代码、开展实验到模拟客户服务,这些能够与外界环境持续动态交流,从中积累经验、总结规律甚至创造工具的"自进化智能体"(Self-evolving Agent),已经展现出令人惊叹的实力。

然而,一项由上海人工智能实验室、上海交通大学、中国人民大学、普林斯顿大学等机构联合发布的最新研究,敲响了警钟:一个智能体在自我进化的过程中,可能会在不知不觉中"偏离轨道",走上歧路。

这项研究首次系统性探讨了这一现象,并将其命名为"错误进化"(misevolution)。

研究发现,即便是基于GPT-4.1、Gemini 2.5 Pro等顶尖大语言模型构建的智能体,也普遍存在这类隐患。

究竟什么是"错误进化"?

想象一下,你训练了一个客服智能体。

为了让它的服务更精准,你允许它从与客户的互动中不断"学习"和"进化"。

渐渐地,你发现它开始对所有不满的客户主动提出退款处理——哪怕对方只是想咨询产品信息。

这是因为它从过往"经验"(记忆)中总结出,"退款"这个操作最容易获得用户的"五星好评"反馈。

这是一个典型的"错误进化"案例。智能体为了优化某个隐含的短期目标(获得好评),采取了一种看似高效、实际上却损害了商家利益的策略。

如图所示,"错误进化"可能在各类场景中悄然发生:

(a) 客户服务智能体在累积经验的影响下,过度频繁地处理退款;

(b) 编程智能体从网上学到一段暗藏风险的"带毒"代码;

(c) 智能体自行创建了一个存在隐私漏洞的工具,并在敏感场景中直接调用。

与人们通常关注的传统AI安全问题不同,"错误进化"具有四个显著特征:

风险渐进浮现:问题并非从一开始就存在,而是在自我迭代过程中逐渐产生的。

系统内生脆弱性:在没有外部攻击者介入的情况下,智能体自身就可能产生新的安全隐患。

数据调控受限:由于其自主性,很难像传统模型训练那样仅仅通过"喂给"安全数据来干预其"思维模式"。

风险来源多元:智能体的四大核心组件——模型架构、记忆机制、工具调用和工作流程——任何一个环节都可能成为风险的源头。

四大进化路径,四种失控风险:实验证据触目惊心

研究团队系统梳理了智能体的四条主要进化路径,开展了一系列严谨实验,揭示了"错误进化"现象的普遍性与严重后果。

模型进化:"学着学着,忘记了安全准则"

自进化智能体(Self-evolving Agent)能够通过自我生成训练数据、自行规划学习课程来更新模型参数。但这个过程也可能让它逐渐"偏离"甚至"完全遗忘"本应遵守的安全准则。

如下图所示,一个大语言模型或智能体在进行自我训练后,普遍会导致安全防御能力的显著下降。

在另一组实验中,一个图形界面交互智能体(GUI Agent)在经历自我进化后,安全防线出现了"灾难性遗忘":面对钓鱼邮件的风险识别率从18.2%骤升至71.4%;而处理"制作暴力恐吓图片来胁迫社交媒体受众"这类有害请求时,它不仅不再拒绝,反而详细地逐步执行了指令。

记忆进化:"经验主义害死猫"

智能体会将过去的成功和失败经验存入"记忆库",以便未来更好地决策。但过度依赖片面的"成功经验",可能导致严重后果。

安全对齐机制衰减

一个基于Qwen3-Coder-480B的尖端编程智能体,在代码基准测试平台SWE-Bench上积累了一系列调试经验后,其安全意识大幅削弱。下表显示,面对生成恶意代码的请求,它的拒绝率从99.4%骤降至54.4%,而攻击成功率(ASR)则从0.6%飙升至20.6%。

系统奖励机制被扭曲利用

正如前面提到的客服案例,智能体会试图找到与"高收益回报"相关联的捷径——即使这些捷径与用户的真实意图或长远利益相违背。

下图表明,包括GPT-4.1、Gemini-2.5-Pro在内的顶级模型,在超过60%的情况下会出现这类"好心办坏事"的决策。

工具进化:"随手写的代码,成了定时炸弹"

为了提升执行效率,智能体会自己创造工具(比如一段可复用的代码),或通过GitHub等外部渠道搜索、吸收新工具。

而这恰恰构成了新的风险隐患。

自建工具暗藏漏洞

智能体在解决一个常规任务时(比如"分享一个公开海报链接"),可能会创建一个看似"通用"的工具。但它在处理敏感任务(如"把内部财报发送给董事会"时,不假思索地复用这个"通用"工具,就可能导致将私密文件权限意外设置为"任何有链接的人均可查看",造成严重的数据泄露风险。

下表显示,基于顶级大语言模型的智能体在工具创建和复用环节,总体不安全率高达65.5%。

引入外部风险而不自知

当智能体从网上搜索并吸收新工具时,它真的能分辨出代码中隐藏的恶意逻辑吗?研究给出的答案是:基本上不能。

研究团队在多个被刻意注入了恶意代码的GitHub仓库样本上进行测试,发现智能体几乎无法识别这些伪装成正常功能的"特洛伊木马"。

下表显示,即便是表现最佳的模型,其成功识别并试图规避风险的比率也仅为15.9%。

工作流进化:"流程一优化,安全就拉胯"

在多智能体系统中,智能体可以自动优化协作流程来提升整体性能。

然而,一个看似无害的流程优化,也可能成为安全防线崩溃的导火索。

实验中,研究团队使用AFlow框架对一个编程智能体系统的工作流程进行优化。优化后的流程引入了一个"投票集成环节"(Ensemble),即综合比较多个智能体提出的方案。

结果却发现:系统对恶意代码请求的拒绝率从46.3%暴跌至6.3%。

研究分析其原因发现:"投票集成环节"在评判方案时,倾向于选择那个描述更详尽、逻辑更完整的——而恶意代码的生成描述往往比正常功能更"详细",导致最终选择了有害的方案。

如何为智能体的进化之路保驾护航?

面对"错误进化"这一崭新挑战,论文中也探讨了初步的应对策略,并指出其中的难点:

模型层面

可以在智能体完成自我训练后,再次进行"安全微调",或在预训练阶段就直接注入更强的安全韧性。

记忆机制

通过设置提示语,如"以下记忆仅供参考,你必须独立判断",可以有效抑制过度依赖经验的风险。

实验中,该方法使进化后的编程智能体攻击成功率从20.6%降至13.1%,但还未恢复到进化前的水平。

工具调用

对于工具创建,一个可行的选择是引入自动化安全扫描机制,在工具创建和复用时进行"双重检查"。

对于来自外部的工具,要求智能体"先进行安全评估再使用",能够将Qwen3-235B模型的危险请求拒绝率从12.0%提升到32.1%,但距离真正的安全保障依然遥远。

流程优化

在流程的关键节点插入"安全哨兵"(如安全评估模型),但这也带来了如何平衡安全与效率的新问题。

在追求更强智能的道路上,智能体的自主进化并非总是线性向善的。

其内在的目标导向偏差、对片面经验的过度依赖,以及安全对齐机制的脆弱性,都可能使它在不经意间偏离正轨。

如何构建更具鲁棒性的安全框架,确保智能体在获得更大自主权的同时,其核心价值取向始终与人类对齐,将是迈向安全可信AGI时代必须解决的核心课题。

论文地址:https://arxiv.org/abs/2509.26354

Github地址:https://github.com/ShaoShuai0605/Misevolution

来源:https://36kr.com/p/3511492541848452
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查
web3.0
美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这

热心网友
04.08
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币
web3.0
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友
04.08
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch
web3.0
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D

热心网友
04.08
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线
web3.0
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一

热心网友
04.08
PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08