复旦自进化Harness工程让GPT‑5.4性能再提升七个点

首页

AI资讯

热心网友

转载

2026-05-21

如果说2026年AI领域有什么共识正在加速形成，那就是：大模型本身的能力，越来越依赖于一套精密的外部框架来释放。OpenAI、Anthropic、LangChain等机构的技术博客，以及OpenClaw、Hermes Agent等项目的火爆，都指向同一个热词——Harness Engineering（缰绳工程）。

原因很清晰：模型能力的迭代以月为单位，任务场景却日益复杂和长尾，而框架（Harness）的优化高度依赖人工经验。这引出了一个核心的工程挑战：在Harness的迭代循环中，哪些环节可以实现自动化？如何让框架具备自我学习和改进的能力？

近期，来自复旦大学、北京大学和上海奇绩智峰的团队提出了一个极具启发性的解决方案：Agentic Harness Engineering (AHE)。这是一套以可观测性为核心驱动的Harness自动化优化方法，旨在端到端地贯穿框架工程全流程，从而最大化释放模型的潜能。

从实验结果来看，这套方法成效显著。使用GPT-5.4时，AHE将模型在Terminal-Bench 2上的评测分数从69.7分迭代提升到了77.0分。更值得一提的是，当GPT-5.5发布后，AHE能迅速演化出与之适配的新Harness，并在相关评测榜单位列全球第三。这背后，是自动迭代出的框架展现出了优秀的跨模型和跨任务泛化能力，说明它学习到的是通用的工程原则，而非针对特定评测集的“应试技巧”。

目前，相关论文已在社交平台X上获得了超过10万次的浏览与讨论，引发了业界广泛关注。

为什么要设计可观测体系？

要理解AHE，首先需要洞察Harness Engineering的本质。我们可以从三个维度来审视它。

从形态上看，模型和Harness共同构成了一个与环境交互的智能体。模型处于概率空间，是智能与不确定性的来源；而Harness则是包裹其外的确定性组件，包括系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆等。在智能体执行复杂、长期的生产力任务时，Harness是确保其行为稳定、一致、可控的关键保障。

从目的上看，Harness的核心职能之一是管理模型与环境之间的双向信息流：一方面在合适时机将任务、用户意图、环境状态等信息传递给模型，另一方面则将模型的输出忠实地记录、校验后交回环境执行。过去，开发者需要手动拼凑这些上下文，而Harness的目标就是让这种信息流动更精准、更自主。

那么，Harness Engineering的方法论是什么？最基础的一层，是独立优化各个组件代码，这依赖于扎实的工程开发，让每个部分变得更高效、安全。

但更进一步，对于特定环境，寻找最优Harness就变成了一个模型、框架、环境三者的组合优化问题。这无法依赖人类先验知识一步到位，必须通过开发、观测、迭代的循环，根据模型的运行轨迹和评测结果反复调整。

问题在于，人类的注意力是稀缺资源。因此，一个自然的思路是：让智能体自身也参与到框架的优化过程中来。只要将优化目标、动作空间和状态空间以智能体可读的方式呈现，就能引入智能体进行自主优化。这正是AHE设计其可观测体系的根本出发点。

可观测体系：组件、经验、决策

Harness的开发通常经历编写组件、运行智能体、收集反馈的迭代循环。要让智能体接手这项工作，就必须让过程中产生的所有上下文变得可观测，并且实现结构化和层次化。

AHE方法由三个核心智能体角色构成：执行测试的Coding Agent、负责整理轨迹的Agent Debugger，以及修改框架实现进化的Evolve Agent。其可观测体系也相应分为三部分：

1. 组件可观测性：解耦的“声明式Harness”
Coding Agent基于名为NexAU的框架运行。AHE将Harness拆解为七种正交的文件级组件：系统提示词、工具描述、工具实现、中间件、技能、子智能体配置、长期记忆。每个组件都是独立文件，有明确的挂载点，彼此结构解耦。

这种设计的优势在于，它让“失败模式”与“单一组件”的映射关系变得极其清晰。所有修改通过Git进行版本管理，确保了每次变更都可追溯、可审计、可回滚。而作为优化起点的Coding Agent，则从一个“零先验”的极简形态开始，确保后续每一次组件新增或提示词修改，都能被清晰地归因。

2. 经验可观测性：把海量轨迹变成可消费资产
一次完整评测产生的原始轨迹动辄数千万Token，直接丢给Evolve Agent只会淹没其上下文窗口。为此，AHE开发了一套名为Agent Debugger的分层提炼流水线：底层完整记录原始轨迹；中层由Cleaner去除重复工具输出；上层则通过一个QA子智能体，针对每道题的多次运行结果进行策略性分析。最终，所有分析汇聚成一份约1万Token的概览报告，供Evolve Agent高效消费。

这本质上是一种渐进式披露的设计。Evolve Agent默认只需阅读概览，但在需要核实时，可以随时回溯查看单题细节乃至原始轨迹，从而将海量数据转化为可并发处理、可审计的经验资产。

3. 决策可观测性：证据驱动的修改

Evolve Agent的设计原则非常克制，以确保进化过程的稳定：它只能修改工作区内的Harness组件文件，评测框架、LLM配置等均为只读，杜绝任何取巧行为。每次修改都必须附带一份详细的“变更清单”，包括失败证据、推断根因、修改方案以及自我声明的性能预测。下一轮评测则充当验证者：预测正确的修改保留，预测错误的则自主决定回滚。

如此一来，每一次Harness的变动，都不再是工程师的直觉或抽象经验，而是一条可以被下一轮实验证伪的“科学假说”。框架的进化，由此从一门艺术走向了工程，从依赖经验走向了遵循科学。

实验结果：超越人类专家，展现强大泛化能力

在主实验中，AHE将GPT-5.4驱动的Coding Agent在Terminal-Bench 2上的pass@1分数从69.7%提升至77.0%，绝对提升7.3个百分点。这一成绩超越了使用同版本模型的其他主流方案。

更值得关注的是其展现出的泛化能力：

跨任务泛化： 将在Terminal-Bench 2上演化得到的Harness，直接迁移到SWE-Bench Verified任务上，AHE以更少的Token消耗实现了比对比基线更高的成功率。这表明演化学到的是可迁移的通用工程经验，而非针对特定评测集的“过拟合”知识。

跨模型泛化： 将同一份由GPT-5.4演化得到的Harness，直接配到Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4上，不做任何调整。结果显示，三种模型均获得了显著提升（+5.1到+10.1个百分点），且模型基础能力越弱，提升幅度越大。这证明演化出的Harness蕴含了一些普适的结构性原则，而非为某个特定模型定制。

价值沉淀：事实比策略更可迁移

在探索过程中，团队也经历过失败。早期仅在30道高难度题目上进行演化，结果智能体学会了针对特定题目的“黑客技巧”，导致性能在局部震荡，无法持续提升。将题集扩大到89题全集并加入人工方法论指导后，过拟合虽缓解，但演化很快陷入瓶颈，75.3%就触顶，且78%的修改都集中在中间件层——人工引入的行为先验，反而成了进化僵化的源头。

最终版本的突破来自两个关键改动：一是在评测时每题运行两次，通过差异对比定位更精准的诊断信号；二是删除了所有行为指导，只保留证据驱动的过程要求和回滚规则。结果，性能稳步提升至77.0%，且修改分布变得健康均衡。

一个反直觉的发现来自消融实验。当把AHE演化得到的四类组件（记忆、工具、中间件、系统提示词）逐一放回初始框架测试时，结果出乎意料：记忆（Memory）组件单独就能恢复全局性能增幅的95%以上，工具组件对中等难度题目提升显著，而单独迁移系统提示词反而导致性能下降。

这或许揭示了一个深层逻辑：提示词的语义往往是策略性的（“你应该这样做”），而记忆和工具的语义是事实性的（“这里有一段可复用代码”或“这是一个可用功能”）。事实比策略具有更好的可迁移性，它们在保留有效信息的同时，维持了更强的泛化能力。这也解释了为何人类试图用方法论指导演化智能体时会失败——开发者习惯于教授策略，而模型更擅长从事实中学习。