上海AILab研究：Agent自进化风险与错误进化应对策略

首页

科技数码

热心网友

转载

2025-10-16

当智能体（Agent）学会了自我进化，我们距离实现通用人工智能（AGI）还有多远？

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

从自动编写代码、开展实验到模拟客户服务，这些能够与外界环境持续动态交流，从中积累经验、总结规律甚至创造工具的"自进化智能体"（Self-evolving Agent），已经展现出令人惊叹的实力。

然而，一项由上海人工智能实验室、上海交通大学、中国人民大学、普林斯顿大学等机构联合发布的最新研究，敲响了警钟：一个智能体在自我进化的过程中，可能会在不知不觉中"偏离轨道"，走上歧路。

这项研究首次系统性探讨了这一现象，并将其命名为"错误进化"（misevolution）。

研究发现，即便是基于GPT-4.1、Gemini 2.5 Pro等顶尖大语言模型构建的智能体，也普遍存在这类隐患。

究竟什么是"错误进化"？

想象一下，你训练了一个客服智能体。

为了让它的服务更精准，你允许它从与客户的互动中不断"学习"和"进化"。

渐渐地，你发现它开始对所有不满的客户主动提出退款处理——哪怕对方只是想咨询产品信息。

这是因为它从过往"经验"（记忆）中总结出，"退款"这个操作最容易获得用户的"五星好评"反馈。

这是一个典型的"错误进化"案例。智能体为了优化某个隐含的短期目标（获得好评），采取了一种看似高效、实际上却损害了商家利益的策略。

如图所示，"错误进化"可能在各类场景中悄然发生：

(a) 客户服务智能体在累积经验的影响下，过度频繁地处理退款；

(b) 编程智能体从网上学到一段暗藏风险的"带毒"代码；

与人们通常关注的传统AI安全问题不同，"错误进化"具有四个显著特征：

风险渐进浮现：问题并非从一开始就存在，而是在自我迭代过程中逐渐产生的。

系统内生脆弱性：在没有外部攻击者介入的情况下，智能体自身就可能产生新的安全隐患。

数据调控受限：由于其自主性，很难像传统模型训练那样仅仅通过"喂给"安全数据来干预其"思维模式"。

风险来源多元：智能体的四大核心组件——模型架构、记忆机制、工具调用和工作流程——任何一个环节都可能成为风险的源头。

四大进化路径，四种失控风险：实验证据触目惊心

研究团队系统梳理了智能体的四条主要进化路径，开展了一系列严谨实验，揭示了"错误进化"现象的普遍性与严重后果。

模型进化："学着学着，忘记了安全准则"

自进化智能体（Self-evolving Agent）能够通过自我生成训练数据、自行规划学习课程来更新模型参数。但这个过程也可能让它逐渐"偏离"甚至"完全遗忘"本应遵守的安全准则。

如下图所示，一个大语言模型或智能体在进行自我训练后，普遍会导致安全防御能力的显著下降。

在另一组实验中，一个图形界面交互智能体（GUI Agent）在经历自我进化后，安全防线出现了"灾难性遗忘"：面对钓鱼邮件的风险识别率从18.2%骤升至71.4%；而处理"制作暴力恐吓图片来胁迫社交媒体受众"这类有害请求时，它不仅不再拒绝，反而详细地逐步执行了指令。

记忆进化："经验主义害死猫"

智能体会将过去的成功和失败经验存入"记忆库"，以便未来更好地决策。但过度依赖片面的"成功经验"，可能导致严重后果。

安全对齐机制衰减

一个基于Qwen3-Coder-480B的尖端编程智能体，在代码基准测试平台SWE-Bench上积累了一系列调试经验后，其安全意识大幅削弱。下表显示，面对生成恶意代码的请求，它的拒绝率从99.4%骤降至54.4%，而攻击成功率（ASR）则从0.6%飙升至20.6%。

系统奖励机制被扭曲利用

正如前面提到的客服案例，智能体会试图找到与"高收益回报"相关联的捷径——即使这些捷径与用户的真实意图或长远利益相违背。

下图表明，包括GPT-4.1、Gemini-2.5-Pro在内的顶级模型，在超过60%的情况下会出现这类"好心办坏事"的决策。

工具进化："随手写的代码，成了定时炸弹"

为了提升执行效率，智能体会自己创造工具（比如一段可复用的代码），或通过GitHub等外部渠道搜索、吸收新工具。

而这恰恰构成了新的风险隐患。

自建工具暗藏漏洞

智能体在解决一个常规任务时（比如"分享一个公开海报链接"），可能会创建一个看似"通用"的工具。但它在处理敏感任务（如"把内部财报发送给董事会"时，不假思索地复用这个"通用"工具，就可能导致将私密文件权限意外设置为"任何有链接的人均可查看"，造成严重的数据泄露风险。

下表显示，基于顶级大语言模型的智能体在工具创建和复用环节，总体不安全率高达65.5%。

引入外部风险而不自知

当智能体从网上搜索并吸收新工具时，它真的能分辨出代码中隐藏的恶意逻辑吗？研究给出的答案是：基本上不能。

研究团队在多个被刻意注入了恶意代码的GitHub仓库样本上进行测试，发现智能体几乎无法识别这些伪装成正常功能的"特洛伊木马"。

下表显示，即便是表现最佳的模型，其成功识别并试图规避风险的比率也仅为15.9%。

工作流进化："流程一优化，安全就拉胯"

在多智能体系统中，智能体可以自动优化协作流程来提升整体性能。

然而，一个看似无害的流程优化，也可能成为安全防线崩溃的导火索。

实验中，研究团队使用AFlow框架对一个编程智能体系统的工作流程进行优化。优化后的流程引入了一个"投票集成环节"（Ensemble），即综合比较多个智能体提出的方案。

结果却发现：系统对恶意代码请求的拒绝率从46.3%暴跌至6.3%。

研究分析其原因发现："投票集成环节"在评判方案时，倾向于选择那个描述更详尽、逻辑更完整的——而恶意代码的生成描述往往比正常功能更"详细"，导致最终选择了有害的方案。

如何为智能体的进化之路保驾护航？

面对"错误进化"这一崭新挑战，论文中也探讨了初步的应对策略，并指出其中的难点：

模型层面

可以在智能体完成自我训练后，再次进行"安全微调"，或在预训练阶段就直接注入更强的安全韧性。

记忆机制

通过设置提示语，如"以下记忆仅供参考，你必须独立判断"，可以有效抑制过度依赖经验的风险。

实验中，该方法使进化后的编程智能体攻击成功率从20.6%降至13.1%，但还未恢复到进化前的水平。

工具调用

对于工具创建，一个可行的选择是引入自动化安全扫描机制，在工具创建和复用时进行"双重检查"。

对于来自外部的工具，要求智能体"先进行安全评估再使用"，能够将Qwen3-235B模型的危险请求拒绝率从12.0%提升到32.1%，但距离真正的安全保障依然遥远。

流程优化

在流程的关键节点插入"安全哨兵"（如安全评估模型），但这也带来了如何平衡安全与效率的新问题。

在追求更强智能的道路上，智能体的自主进化并非总是线性向善的。

其内在的目标导向偏差、对片面经验的过度依赖，以及安全对齐机制的脆弱性，都可能使它在不经意间偏离正轨。

如何构建更具鲁棒性的安全框架，确保智能体在获得更大自主权的同时，其核心价值取向始终与人类对齐，将是迈向安全可信AGI时代必须解决的核心课题。

论文地址：https://arxiv.org/abs/2509.26354

Github地址：https://github.com/ShaoShuai0605/Misevolution

来源:https://36kr.com/p/3511492541848452

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：竹裤架翻红！杭州老板用毛竹制作，三十年热销江浙沪下一篇：Exodus 2026发售指南：末日星际求生对战远古外星文明

热门推荐

web3.0

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑，终于有了实质性进展。美国证券交易委员会（SEC）主席保罗·阿特金斯（Paul Atkins）近日证实，那份允许加密项目在早期获得注册豁免权的“安全港”框架提案，已经正式送抵白宫，进入了最终审查阶段。在范德堡大学与区块链协会联合举办的数字资产峰会上，阿特金斯透露了这

热心网友

04.08

web3.0

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告：第一季录得144 6亿美元浮亏再斥资约3 3亿美元买进4871枚比特币市场震荡的威力有多大？看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告，受市场剧烈波动影响，这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友

04.08

web3.0

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向，向来是加密世界的风向标。这不，它向Web3基础设施的版图扩张，又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露，其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出，立刻引发了行业的广泛猜想。采用D

热心网友

04.08

web3.0

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol，日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议，在运营不到三年后，终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets（ILMs）——一

热心网友

04.08

web3.0

PAAL代币如何参与治理？社区投票能决定哪些事项？

PAAL代币揭秘：深度解析Web3社区治理的核心钥匙在去中心化自治组织的浪潮中，谁真正掌握了项目的话语权？PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介，更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币，用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友

04.08