复旦自进化工程让GPT5.4性能再提升7%

2026年,人工智能领域的一个关键趋势日益凸显:OpenAI、Anthropic、LangChain等行业领导者纷纷将目光投向“Harness Engineering”(智能体框架工程)。随着OpenClaw、Hermes Agent等项目的兴起,这一概念已成为技术热点。业界逐渐达成共识:大型语言模型(LLM)潜力的充分发挥,越来越依赖于一套精心设计的外部框架系统。
然而,Harness的开发与优化本身是一项复杂的系统工程,需要紧密结合模型能力与具体任务场景进行综合设计。当前的核心矛盾在于:模型能力正以月为单位快速迭代,任务场景也日益长尾化和复杂化,但Harness的优化却严重依赖人工经验与反复试错。这引出了一个根本性问题:在Harness Engineering的迭代循环中,哪些环节可以实现自动化?我们能否让Harness框架具备自我学习与持续改进的能力?
近期,来自复旦大学、北京大学和上海奇绩智峰的研究团队提出了一项创新解决方案:Agentic Harness Engineering (AHE)。这是一种以“可观测性”为核心的Harness自动化优化方法论,旨在端到端地覆盖Harness工程全流程,从而最大化释放智能体的自主性与性能潜力。

实验数据充分证明了AHE的有效性。在基于GPT-5.4模型的测试中,AHE方法将智能体在Terminal-Bench 2基准测试上的得分从69.7分迭代提升至77.0分,实现了显著进步。更具突破性的是,当GPT-5.5模型发布后,AHE能够快速迭代出与之适配的新版Harness,并在相关全球排行榜中取得了第三名的优异成绩。

此外,这套自动化迭代产生的Harness框架展现了卓越的泛化能力——它不仅能在不同的大模型上稳定工作,也能适应多样化的任务集。这有力地表明,其性能提升并非源于对特定评测数据的“过拟合”,而是掌握了通用的优化原则。
为何需要构建可观测体系?
理解Harness Engineering的三个维度

要理解AHE的价值,首先需厘清Harness的本质。从系统构成看,模型与Harness共同形成了一个与环境交互的智能主体。模型处于核心,其行为发生在概率空间;而Harness则是包裹在外部的确定性组件,涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆以及日志观测等模块。在智能体执行复杂、长期的生产力任务时,Harness是确保其行为稳定、可靠、可控的关键保障。
从功能目标看,Harness的核心职责之一是管理模型与环境之间双向的“上下文信息流”。它需要在恰当的时机,将任务目标、用户意图、环境状态和外部知识传递给模型;同时,又要将模型生成的动作指令准确记录、校验并交付给环境执行。
过去,这项工作高度依赖人工操作:开发者手动编写提示词、复制终端输出、整理外部文档,并依靠直觉决定上下文的组织方式。因此,Harness设计的一个明确目标,就是让上下文流动变得更加精准、高效和自动化。
那么,Harness Engineering的方法论究竟是什么?最基础的一层,是对各个独立组件进行代码级优化,即常说的智能体(Agent)基础设施建设。开发者社区已贡献了大量优秀组件,涉及记忆管理、上下文窗口优化、沙盒环境、轨迹记录等。这依赖于扎实的软件工程能力,旨在提升每个组件的效率、安全性与稳定性。
但更进一步,对于任何特定任务环境,要找到最优的Harness配置,这就演变成一个“模型 x Harness x 环境”的组合优化问题。它没有明确的规则可循,也无法依靠人类的先验知识一步到位,必须进入“开发-观测-迭代”的循环,依据模型的运行轨迹和客观评测分数进行反复调整与优化。
人类的注意力是稀缺资源。于是,一个自然的构想应运而生:能否让智能体自身也参与到Harness的优化过程中?只要将优化目标、可操作空间和状态信息以智能体可理解的方式呈现,就能引入智能体进行自主优化。这正是AHE设计其可观测体系的根本出发点。
可观测体系的三层架构:组件、经验与决策
Harness的开发通常经历编写组件、运行智能体、收集反馈等多个阶段,这个过程需要反复迭代。要让智能体接手人类工程师的工作,就必须使整个过程产生的所有“上下文”变得可观测,并进行结构化和层次化的处理。
关键在于,不限制智能体的自主决策空间,而是依赖客观的评测结果以及更多分层信息,辅助其进行精准的问题定位与归因分析。
AHE方法由三个核心角色构成:负责运行测试的Coding Agent(编码智能体)、负责整理与分析轨迹的Agent Debugger(调试智能体),以及负责修改Harness以实现性能进化的Evolve Agent(进化智能体)。整个可观测体系也相应地分为三个部分:

(1)组件可观测性:基于“声明式Harness”的解耦设计
Coding Agent基于名为NexAU的框架运行。AHE将Harness拆解为七种正交的文件级组件:系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件都是独立文件,拥有明确的挂载点,彼此结构解耦。
这种设计的精妙之处在于,它使得“失败模式”与“特定组件”之间的映射关系变得极其清晰。所有修改都通过Git进行版本管理,每一次变更都是一次可追溯、可审计、可回滚的代码提交。
作为优化起点的Coding Agent,则故意从一个“零先验”的极简形态开始:仅具备运行shell命令的基础工具,不包含任何中间件、技能或子智能体。这样做的目的是确保后续每一次新增组件、每一次提示词改写,其效果都能被清晰、准确地归因。
(2)经验可观测性:Agent Debugger将海量轨迹转化为可消费资产
一次完整的基准评测所产生的原始运行轨迹动辄数千万Token,如果直接提供给Evolve Agent,其上下文窗口会瞬间被淹没,导致无法进行有效分析。
为此,AHE开发了一套名为Agent Debugger的分层提炼流水线:底层完整记录所有原始轨迹;中层由清理器去除重复冗余的工具输出;上层则通过一个问答子智能体,针对每道题目的多次运行结果,自动切换提问策略进行深入分析。最终,所有单题分析被汇总成一份约1万Token的概览报告,供Evolve Agent高效使用。
这本质上是一种“渐进式披露”的信息设计。Evolve Agent默认只需阅读高度概括的概览报告,但在需要核实细节时,可以随时调阅单题分析,甚至回溯到原始轨迹。数千万Token量级的原始数据,就此转化为可并发处理、可高效消费、可审计追溯的宝贵经验资产。
(3)决策可观测性:Evolve Agent遵循“证据驱动修改”原则

Evolve Agent的设计原则非常克制,核心目标是实现稳定、可靠的进化:
它仅被允许修改工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词等核心部分均为只读,彻底杜绝任何可能绕过评测的“作弊”行为。每次修改都必须附带一份详细的“变更清单”,内容包括:失败的具体证据(哪些任务未通过)、推断的根本原因、针对性的修改方案,以及自我声明的预测(预计修复哪些任务、可能对哪些任务产生负面影响)。每一轮修改后,由下一轮独立评测充当验证者:预测正确的修改得以保留,预测错误的修改则由系统自主决定回滚。
通过这种方式,每一次Harness的变动都不再是工程师的直觉或抽象经验,而是一条可以被下一轮实验严格验证或证伪的“科学假说”。Harness的进化,由此从一门依赖经验的“艺术”,走向了遵循证据的“工程科学”。
实验结果:超越人类专家,实现卓越的跨模型泛化能力

在主实验中,AHE将GPT-5.4驱动的Coding Agent在Terminal-Bench 2基准上的pass@1分数从最初的69.7%提升到了77.0%,绝对提升达7.3个百分点,相对提升10.5%。这一成绩不仅超过了同样使用GPT-5.4的OpenAI最新Codex-CLI(71.9%),也显著优于ACE和Training Free-GRPO等主流基线方法。
更令人惊喜的在于其展现出的强大泛化能力。
跨任务泛化: 将在Terminal-Bench 2上演化得到的Harness框架冻结后,直接迁移到SWE-Bench Verified基准上进行测试。AHE以更少的Token消耗,实现了比ACE和TF-GRPO更高的任务成功率。这表明演化学习到的并非“如何解答Terminal-Bench 2特定题目”的狭隘知识,而是可迁移的通用工程优化经验。

跨模型泛化: 同样一份由GPT-5.4演化得到的Harness配置,分别应用于Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4模型,不做任何额外调整直接评测。结果显示,三种模型均获得了5.1到10.1个百分点的显著性能提升,且模型基础能力相对越弱,提升幅度越大。这证明这套Harness并非为某个特定模型量身定制,而是学习到了一些真正普适的、结构性的优化原则。

核心价值沉淀于何处?
事实性知识比策略性指导更具可迁移性
研究过程中不乏值得深思的发现。为了加速迭代,团队最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复震荡,基本是“修复一个漏洞,却引入另一个新问题”。分析最终版本的Harness发现,Evolve Agent针对特定题目编写了高度针对性的“技巧性代码”,例如Golden Gate的splice-offset检测、Caffe的完整工作流模板等。这表明,过小的题目集使得单题的信号过强,无法抑制智能体产生“投机取巧”的倾向。
随后,团队将题目集扩展到包含89题的完整集合,并在Evolve Agent的系统提示词中加入了显式的方法论指导,例如“安全/创意/通用性”原则和“中间件 > 工具描述 > 技能 > 提示词”的约束层级排序。结果,过拟合问题确实得到缓解,但训练曲线在75.3%就早早达到平台期,不再上升,且78%的修改都集中在中间件层。人工引入的行为先验,反而成为了进化僵化的源头。
最终版本做出了两个关键改动:一是在评测时对每道题目运行两次,通过对比部分通过的差异来定位最精准的诊断信号;二是删除了所有行为指导,只保留证据驱动的过程要求和自动回滚规则。
结果上,不仅分数稳步提升至77.0%,修改分布也变得更为均衡与健康:中间件37% + 工具48% + 提示词10%,没有任何一个层级的修改占比超过一半,系统在不同演化阶段得以灵活调整优化重点。

一个来自开发者社区的惯性思维是“优先调整提示词”。然而,当把AHE演化得到的四类关键组件(记忆、工具、中间件、系统提示词)逐一单独放回最初的Harness中进行消融实验时,结果却出人意料:记忆组件单独迁移就能恢复全局性能增幅的95%以上,工具组件在中等难度题目上提升显著,而系统提示词单独迁移反而导致了性能下降。
一个合理的解释是:提示词的语义通常是策略性的(指导“你应该如何做”),而记忆和工具的语义更多是事实性的(提供“这里有一段可复用的代码或知识”)。事实性知识比策略性指导具有更好的迁移性,它们保留了具体的信息内容,同时维持了广泛的适用能力。这或许也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败:开发者习惯于教授策略,而模型更擅长从具体的事实和案例中学习与归纳。
结语:可观测的进化循环将加速AGI的到来
AHE带来的最大启示或许在于:当模型能力足够强大时,构建一个结构化的、高度可观测的自动化演化环境,比直接手动开发Harness框架本身更为重要。搭建好完善的观测体系——让Evolve Agent能够清晰访问组件状态、运行轨迹和性能反馈——然后在全量数据上运行自动化测试,就足以演化出具备竞争力的Harness。我们无需替智能体预设任何具体的方法论,只需为它提供一个清晰的工作区、明确的修改接口和高质量的反馈信号,Evolve Agent的行为便会自动向真实世界工程师的最佳实践收敛。
是时候迈出这关键一步,让Harness框架也开启自主进化的新时代了。
热门专题
热门推荐
在《零号任务》的精彩冒险中,清晰掌握个人资产状况是提升游戏水平、优化决策效率的核心基础。无论是筹备大型采购,还是制定下一步的战术策略,对自己的游戏财富了如指掌都至关重要。本文将为您详细解析如何在游戏中快速查看并有效管理您的全部资产。 查看资产的操作流程非常简便。首先,您需要正常登录并进入游戏主界面。
在《和平精英》演唱会模式中,荧光棒具备攻击与救援双重功能。攻击可干扰对手视觉与状态,但不会造成实质伤害;救援则可敲击解除被冰封队友的冻结状态,帮助其恢复行动。这一道具是影响团队胜负的重要协作工具。
苏莱曼从DeepMind联合创始人到加入微软后,其负责的AI项目进展缓慢,未能兑现AI快速取代专业工作的预言,导致业界评价走低。其技术能力与管理风格均受质疑,从早期共创辉煌到如今因项目迟滞沦为笑谈,其经历凸显了在激烈竞争中持续交付成果的重要性。
《灵域修仙之神王传说》构建了一个灵气充盈的仙侠世界,玩家作为修行者需通过探索、修炼掌握天地法则。游戏包含丰富的门派选择、技能体系与炼丹制器等深度玩法,并融入神兽、社交及奇遇系统,结合精美画面与战斗体验,提供高自由度的沉浸式修仙之旅。
ASML首席执行官警告,欧洲人工智能法案需改革或废除,避免“简单化”规则限制技术供应链。该法案严格监管,但可能因理想化规则抬高成本、拖累创新,威胁全球半导体供应链稳定。产业界呼吁政策需平衡安全与开放、监管与创新,避免过度规制束缚欧洲科技竞争力。法案走向将影响全球科技格局。





