Meta华人研究突破：AI智能体自进化新法则深度解析

首页

热心网友

转载

2026-05-20

长期以来，人工智能智能体（AI Agent）的竞争焦点，始终围绕着“谁能更出色地完成特定任务”。然而，当前的研究风向正悄然转变，竞争的核心正逐步升级为“谁能更高效地实现自我进化”。近期，一项由Meta等机构发布的研究成果暗示，AI或许已经触及了“自我进化引擎”的门槛，开启了智能体发展的新篇章。

这项突破性研究由华人学者Jenny Zhang在Meta实习期间主导，联合了Meta AI、英属哥伦比亚大学（UBC）以及纽约大学的研究团队共同完成。他们提出了一个名为“HyperAgents”（DGM-H）的全新智能体框架，标志着AI自我进化能力的一次重要跃迁。

这项研究的核心目标，并非单纯打造一个执行任务能力更强的Agent。它旨在解决一个更高阶的元问题：既然AI已经能够优化自身解决任务的具体策略，那么它是否能够进一步优化“未来应如何优化自身”的这套元规则？

论文通过实验给出了肯定的答案。HyperAgents框架不仅从理论上论证了这种可能性，更在多个实际任务中验证了其系统性的自我进化能力。

HyperAgents实现突破的关键一步，在于将“执行具体任务的智能体”与“负责改进智能体的元智能体”融合进同一个可编辑的程序单元中，研究者将其称为“超级智能体”（hyperagent）。

在这一创新框架下，系统不仅能优化任务求解逻辑，更能对“未来如何生成改进方案”的元机制本身进行修改。论文将这种高阶能力定义为“元认知自我修改”。

这预示着一个潜在的范式转移：过去的竞争是“谁的Agent执行能力更强”，而HyperAgents所引领的下一阶段，则可能是“谁的Agent更擅长自我强化，并且越来越精通于如何变得更强大”。

传统“自我进化”的局限：半自动化模式

该论文清晰地揭示了上一代AI自我进化技术路线的天花板。

此前备受瞩目的“达尔文·哥德尔机”（Darwin Gödel Machine, DGM）已足够令人惊叹。它能够在编码任务中持续自我修改代码、验证结果，并将成功版本存档，以此为基础不断进化。数据显示，DGM在SWE-bench基准测试上将性能从20.0%提升至50.0%，在Polyglot基准上从14.2%提升到30.7%。

然而，DGM的有效性高度依赖于特定领域。在编码任务中，“评估代码质量”和“自我修改代码”本身也属于编码活动，任务能力与自我改进能力在此场景下天然对齐、相互促进。

一旦脱离编码领域，这种对齐关系便不复存在。例如，在评审学术论文、设计机器人奖励函数、或为国际数学奥林匹克（IMO）级别解答评分等任务中，表现出色并不意味着该智能体更擅长修改自身的元认知机制。

HyperAgents论文最核心的贡献，正是直接摒弃了“任务能力与元能力必然对齐”这一固有假设。既然两者未必一致，便不应再将元层的规则固化。这表明，过去许多所谓的“自我进化”系统，本质上仍在人类预设的轨道内运行。而HyperAgents真正实现的，是对“改变机制”本身的改变。

HyperAgents的创新本质是什么？

从表面看，HyperAgents似乎只是增加了一个元智能体（meta agent）。但其真正的革新之处，在于将任务智能体与元智能体深度融合进同一个可编辑的程序框架。

在传统的DGM架构中，系统包含一个手工设计的、固定不变的“指令生成机制”，它根据历史表现决定下一步如何修改。这个机制本身不可修改，因此反而成为了整个系统进化的瓶颈。

HyperAgents的解决方案，是将这部分核心机制也纳入可修改的范畴。换言之，AI不仅修改自己的答案、工具或流程，它开始修改“自己是如何构思修改建议的”。在DGM中，上层机制基本是静态的；而在DGM-H中，元层本身也进入了可演化空间。这意味着，它构建了一个能够自主经营其进化过程的智能系统。

因此，HyperAgents所做的并非简单地“增加一个Agent”，而是从根本上取消了“上层规则永恒不变”这一默认前提，实现了真正的元层进化。

自我改进能力的跨领域迁移

在编码任务中，HyperAgents在Polyglot基准上取得的提升与原始DGM处于同一量级：在50个任务的训练子集上，得分从0.140提升至0.340；在完整测试集上，从0.084提升到0.267。这表明其性能提升并未牺牲模型的泛化能力。

更关键的是，它的能力突破了编码领域的限制。在论文评审、机器人奖励函数设计等非编码任务上，系统同样展现出了持续自我改进的强大能力。

具体而言，在论文评审任务中，初始智能体在测试集得分为0.0，而DGM-H将其显著提升至0.710；在机器人奖励设计任务中，则从0.060提升到0.372。重要的是，这些提升不仅体现在训练任务中，也成功迁移到了预留的测试任务上，证明了其强大的泛化性。

对照实验的结果极具说服力：若关闭自我改进功能，效果明显减弱；若限制开放式探索，系统也难以取得实质性进展；而原始的DGM框架直接移植到非编码领域几乎失效，只有经过大量人工定制化改造（DGM-custom）后，才恢复部分竞争力。

这说明HyperAgents的核心价值，不在于某个特定基准测试上提升几个百分点，而在于它将原本依赖编码场景对齐关系的自我改进，推进成了一个能在多样化非编码任务中运行的通用进化框架。

其跨任务迁移能力尤为值得关注。研究者将在论文评审和机器人任务中演化出的超级智能体，迁移到奥林匹克级别的数学评分任务中。

尽管这些迁移体自身的初始评分能力接近零，但它们作为“能够生成更优智能体的元智能体”，在50轮迭代内就能将所生成的最佳智能体性能推升至0.630。相比之下，来自定制版DGM的迁移体几乎不具备这种能力。

这意味着，被成功迁移的不仅仅是任务经验，更为核心的是“如何持续变得更好”的元能力本身。这为构建通用的AI自我进化系统提供了关键思路。

自主构建内部“基础设施”

许多人谈及“自我进化”，可能认为不过是AI自行调整提示词、优化工作流或添加几条规则。但论文中最具冲击力的展示之一是：系统开始自主地生长出复杂的内部“基础设施”。

在迭代进化过程中，DGM-H会自动生成性能追踪模块、持久记忆系统、评估分析工具以及计算感知规划器等组件。

论文中甚至直接展示了由系统自动生成的性能追踪器代码和持久记忆条目：它开始记录跨代性能指标、总结哪些代际的策略有效、诊断过度修正问题，并主动制定下一轮的改进计划。

这已超越了简单的“日志记录”。系统开始将自我改进视为一个需要长期经营和优化的过程，而非一次次孤立的修补。它不仅记录每一代的分数，还会分析趋势、识别性能回退，并将跨代的有效经验沉淀到持久记忆中，形成可复用的知识资产。

正如一些观察者所指出的，让这一切成为现实的关键，恰恰是“持久记忆”能力的自主涌现。

论文展示的记忆示例中写道：某一代评审员准确率更高但过于严苛；另一代表现更平衡；下一轮改进的目标是融合两者的优点，取长补短。

没有这层记忆，智能体往往只会反复“重新发明轮子”；有了它，过去数代积累的有效经验才第一次能够真正沉淀为下一轮进化迭代的基石。这标志着智能体正从“输出单一结果”的工具，走向“维护一个持续优化、具备历史认知”的自治系统。

结论：非AGI宣言，但标志旧规则松动

必须明确指出，这项研究并未宣称“无限自我进化的AI”或通用人工智能（AGI）已经实现。作者在文中清晰地阐述了当前限制：所有实验均在受控的沙箱环境、资源限制和人工监督下完成；外层循环（如任务分布、父代选择策略、评估协议等）仍有部分未开放给系统自改；真正无界、开放式的自我改进，仍然任重道远。

然而，风险预警的信号已经清晰浮现。一旦AI开始修改自身的改进机制，相关的AI安全与对齐讨论就变得至关重要。论文也专门设立了章节讨论潜在风险：随着系统越来越擅长开放式地自我修改，其演化速度可能超越人类的审计和理解能力。今天依靠沙箱和人工监控或许尚可管控，未来的挑战将愈发严峻。

HyperAgents代表了一种前沿的AI技术路线，它很可能重塑智能体领域的竞争格局。未来的比拼可能不再只是谁会调优大模型、谁会设计工作流、谁会做出更强的单点工具，而是谁能将“自我改进能力”本身产品化、系统化，并实现高效的跨领域迁移。

这将深刻影响AI公司的核心竞争壁垒。真正的护城河，可能不再仅仅是参数规模、算力储备或数据量，而在于是否拥有一套能够跨任务累积经验、跨运行周期持续自我优化的内生进化系统。

同时，这也将重新定义开发者的角色。开发者不再仅仅是编写功能代码的人，而更像是在为AI设计可以继续自我设计与进化的初始边界条件与演化规则。

最重要的一点在于，它动摇了AI行业过去一条默认的规则：系统可以变得更强，但使其变强的方法论必须由人类来定义和掌控。现在，这条规则已经开始松动。我们正在步入一个AI不仅能够完成任务，更能自主探索如何更好地进化的新时代。

来源:https://www.51cto.com/article/840009.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：阿里巴巴与上海AI实验室联合发布人工智能白皮书下一篇：全国医保影像AI识图大赛8月启动赋能数据价值释放