复旦自进化工程突破GPT-5.4性能再提升7%
2026年,Harness Engineering(智能体框架工程)从一个前沿技术概念,迅速演变为驱动大模型落地的核心焦点。随着OpenAI、Anthropic、LangChain等机构相继发布深度技术解析,以及OpenClaw、Hermes Agent等开源项目的火爆,一个行业共识愈发清晰:大模型潜能的充分释放,正日益依赖于一套精密、高效的外部工程框架。

然而,Harness框架的开发与优化本身就是一个复杂的系统工程挑战,需要紧密结合模型能力与具体任务环境进行设计。当大模型自身在以月为单位快速迭代,应用场景不断向长尾、复杂领域延伸时,Harness的优化却依然高度依赖人工经验与反复试错。这引出了一个核心命题:在Harness Engineering的迭代循环中,哪些关键环节可以实现自动化?我们能否构建一个能够从经验中自我学习并持续改进的智能框架?
近期,来自复旦大学、北京大学与上海奇绩智峰的研究团队联合提出了一套名为Agentic Harness Engineering (AHE)的创新解决方案。其核心思路是通过一套由可观测性驱动的端到端自动化方法,贯穿Harness工程的全生命周期,旨在最大限度地激发和利用模型的自主优化能力。
- 论文标题:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
- 论文链接:arxiv.org/abs/2604.25850
- 代码仓库:github.com/china-qijizhifeng/agentic-Harness-engineering
实验数据表明,在GPT-5.4模型上,AHE成功将Coding Agent在Terminal-Bench 2基准测试上的得分从69.7分迭代提升至77.0分。更具突破性的是,当GPT-5.5模型发布后,AHE能够迅速自动化迭代出与之高度适配的新版Harness,最终在相关权威排行榜上位列全球第三。
此外,这套自动化演化出的Harness框架还展现出卓越的跨模型泛化与跨任务泛化能力,有力证明了其性能提升源于通用工程原则的习得,而非针对特定评测集的过拟合。
为何需要可观测体系?深入Harness Engineering的三个维度
要透彻理解AHE的设计哲学,首先需厘清Harness Engineering的本质。从系统构成看,模型与Harness共同构成了一个与环境交互的智能主体。模型是产生智能与不确定性的核心,其行为基于概率空间;而Harness则是包裹其外的确定性工程组件,涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆以及日志观测等模块。在智能体执行复杂、长周期的生产力任务时,Harness是确保其行为稳定、可靠、可控的关键基础设施。
从功能目标看,Harness的核心职责之一是管理模型与环境之间高效、精准的双向信息流:一方面需要将任务目标、用户意图、环境状态等信息结构化地传递给模型;另一方面则需要将模型的动作意图忠实地记录、校验并交回环境执行。
过去,这项工作高度依赖人工介入。开发者需手动设计提示词、复制终端输出、整理外部文档,上下文信息分散在互不连通的空间中,全凭工程师的直觉和经验来决定信息的构成与流动路径。因此,Harness设计的一个核心优化方向,就是让上下文的流动变得更加精准、高效和自主。
那么,Harness Engineering的方法论究竟包含哪些层面?
最基础的一层,是对各个独立组件进行代码级优化,即常说的Agent Infrastructure(智能体基础设施)。开发者社区贡献了大量优秀的Harness组件库,用于处理记忆、上下文管理、沙盒环境等,这依赖于扎实的工程能力,旨在让每个部分都变得更高效、安全、稳定。
但更进一步,当面对一个特定任务环境,需要寻找最优的Harness整体配置时,问题就演变为一个涉及模型、Harness、环境三者的复杂组合优化问题。此时,人类开发者的先验知识很难一步到位找到全局最优解,必须进入“开发-运行-观测-迭代”的闭环,依据模型的实际运行轨迹和客观评测分数进行反复调整与优化。
人类的注意力与时间是稀缺资源。因此,一个自然而然的构想是:让智能体自身也深度参与到对其外部框架的优化过程中。只要能将优化目标、可操作空间以及系统状态以一种智能体可理解、可处理的方式呈现,就有可能引入智能体进行自主、持续的优化。这正是AHE设计其核心可观测体系的根本出发点。
构建可观测体系:组件、经验与决策的三重维度
Harness的典型开发流程遵循几个阶段:编写组件、运行智能体、收集反馈,并不断循环。要让智能体接手人类的优化工作,关键在于让这个过程产生的所有上下文信息变得全面可观测,并实现高度的结构化和层次化。
AHE方法由三个核心智能角色构成:负责执行测试的Coding Agent、负责整理与分析运行轨迹的Agent Debugger,以及负责修改Harness以实现框架进化的Evolve Agent。其可观测体系也相应地划分为三个有机部分:
- 组件可观测性:通过NexAU框架提供解耦的、声明式的Harness组件定义与管理。
- 经验可观测性:通过Agent Debugger将海量原始运行轨迹提炼为分层的、可溯源的诊断反馈。
- 决策可观测性:让Evolve Agent基于Git版本历史与结构化反馈,进行证据驱动的精准修改。
(1)组件可观测性:基于“声明式Harness”的解耦设计
Coding Agent基于NexAU框架运行。AHE将Harness拆解为七种正交的文件级组件:系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件都是独立文件,拥有明确的挂载点,彼此结构解耦。
这种设计的精妙之处在于,它使得“失败模式”与“具体组件”之间的映射关系变得极其清晰。所有修改都通过Git进行严格的版本管理,每一次变更都是一个可追溯、可审计、可回滚的独立提交。
作为优化起点的初始Coding Agent,被故意设计成一个“零先验”的极简形态:仅包含一个运行Shell命令的基础工具,没有任何中间件、技能或子智能体。这确保了后续每一次新增组件或改写提示词,其带来的效果变化都能被清晰、干净地归因分析。
(2)经验可观测性:Agent Debugger将海量轨迹转化为可消费资产
一次完整的基准评测产生的原始轨迹动辄数千万Token,如果直接提供给Evolve Agent,其上下文窗口会瞬间过载,根本无法进行有效的分析与决策。
为此,AHE开发了一套名为Agent Debugger的分层提炼流水线:底层完整记录所有原始交互轨迹;中层由Cleaner模块去除冗余重复的工具输出;上层则通过一个专用的QA子智能体,针对每道题目的多次运行结果,自动切换提问策略进行深度分析。最终,所有单题分析被汇聚、提炼成一份约10K Token的全局概览报告,供Evolve Agent高效消费与决策。
这本质上是一种渐进式披露的智能设计。Evolve Agent默认只需阅读高度浓缩的概览报告,但在需要对特定问题进行深度核实时,可以随时按需回溯查看单题细节乃至最原始的交互轨迹。如此一来,千万级Token的庞大数据就转化为了可并发处理、易于消费、全程可审计的宝贵经验资产。
(3)决策可观测性:Evolve Agent遵循“证据驱动修改”原则
Evolve Agent的设计遵循高度克制的原则,以确保进化过程的稳定性与可靠性:
- 其修改权限被严格限定在工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词等均设置为只读,彻底杜绝任何试图通过修改评测规则来“作弊”的行为。
- 每次修改都必须附带一份详细的“变更清单”,内容包括:具体的失败证据(明确哪些任务失败了)、推断的根本原因、针对性的修改方案,以及自我声明的效果预测(预计能修复哪些任务、可能对哪些任务产生负面影响)。每一轮修改后,由下一轮独立的评测充当验证者——预测正确的修改得以保留,预测错误的则由智能体自主决定回滚。
通过这套严谨的机制,每一次Harness的变动都不再是工程师抽象的、难以复现的经验或直觉,而是一条可以被下一轮实验客观证伪或证实的“科学假说”。Harness的进化,由此从一门依赖个人经验的“艺术”,走向了遵循可观测、可验证原则的“系统工程”。
实验结果:性能超越人类专家,展现卓越泛化能力
在主实验中,AHE驱动GPT-5.4模型,将Coding Agent在Terminal-Bench 2基准测试上的pass@1分数从最初的69.7%稳步提升至77.0%,绝对提升达7.3个百分点,相对提升幅度高达10.5%。这一成绩不仅超越了同样使用GPT-5.4的OpenAI官方Codex-CLI(71.9%),也显著优于ACE和Training Free-GRPO等当前主流基线方法。
更令人惊喜的是其在泛化能力上的表现:
跨任务泛化能力:将在Terminal-Bench 2上演化得到的最终Harness框架冻结后,直接迁移到SWE-Bench Verified测试集上进行评估。结果显示,AHE以更少的Token消耗,实现了比ACE和TF-GRPO更高的任务成功率。这表明演化过程学习到的是可迁移的通用工程经验与最佳实践,而非针对特定题集的“刷题”技巧。
跨模型泛化能力:将同一份由GPT-5.4演化得到的Harness,分别适配到Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4等不同模型上,不做任何再演化直接进行评测。三种模型均获得了5.1到10.1个百分点的显著性能提升,且模型的基础能力越弱,提升幅度相对越大。这说明演化出的Harness并非为某个特定模型“量身定制”,而是学习到了一些真正普适的、能提升模型与任务环境交互效率的结构性原则。
价值沉淀于何处?事实性知识比策略性指导更具可迁移性
在项目博客中,团队也分享了一些早期的失败探索与关键洞见。为了追求快速迭代,他们最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复震荡,基本陷入“修复一个漏洞,引入另一个漏洞”的困境。分析最终版本的Harness发现,Evolve Agent对某些特定题目编写了高度针对性的“补丁”代码。这表明,过小的评测集会放大单一样本的信号,难以抑制智能体针对特定题目进行“黑客式”局部优化的倾向。
随后,团队将题集扩大到包含89道题的全集,并在Evolve Agent的系统提示词中加入了显式的方法论指导,如“安全/创意/通用性”原则和“中间件 > 工具描述 > 技能 > 提示词”的约束层级。过拟合现象确实得到了缓解,但训练曲线在75.3%就早早触顶,且78%的修改都集中在中间件层。人工引入的行为先验,反而成为了进化过程僵化、陷入局部最优的源头。
最终版本做出了两个关键改动:一是在评测时对每道题目运行两次,通过对比差异来定位更精准、更鲁棒的诊断信号;二是删除了所有人为的行为指导,只保留基于证据驱动的过程要求和自动回滚规则。
结果,性能分数得以稳步提升至77.0%,修改分布也变得更为均衡与健康:中间件37%、工具48%、提示词10%,没有任何一个层级的修改占比过半,演化过程能够在不同阶段灵活调整优化重点。
一个极具启发性的发现来自消融实验。社区惯常思维是“优先调整提示词”。然而,当把AHE演化得到的四类核心组件(记忆、工具、中间件、系统提示词)逐一放回最初的基线Harness进行独立测试时,结果截然相反:仅迁移记忆组件就能恢复全局性能增幅的95%以上,工具组件对中等难度题目提升显著,而单独迁移优化后的系统提示词反而可能导致性能下降。
一个合理的解释是:提示词的语义本质上是策略性的(指导模型“你应该如何做”),而记忆和工具的语义是事实性的(提供“这里有一段可复用代码”或“这是一个可用功能”)。事实性知识比策略性指导具有更好的可迁移性与稳定性,它们保留了有效的结构化信息,同时维持了广泛的泛化能力。这或许也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败:开发者习惯于教授策略,而大模型更擅长从具体的事实和结构中自主学习规律。
结语:可观测的自动化进化循环将加速AGI进程
AHE带来的最大启示或许在于:当基础模型足够强大时,构建一个结构化的、高度可观测的自动化演化环境,比直接动手开发具体的Harness组件更为重要。只要构建好完善的观测体系——让Evolve Agent能够清晰、结构化地访问所有组件、运行轨迹和反馈信号——然后在全量、多样的数据上运行测试,就足以自动化演化出具备高度竞争力的Harness框架。无需替智能体预先思考任何具体的方法论,只需提供一个清晰的工作区、明确的修改接口和高质量的反馈信号,Evolve Agent的行为便会自动向真实优秀工程师的工程实践收敛。
道路已经指明:是时候迈出关键一步,让Harness框架自身也开启持续进化之旅了。
热门专题
热门推荐
AI技术在音乐创作领域的应用正不断深化,从基础的智能编曲发展到如今备受关注的AI歌曲翻唱。FineShare Singify作为一款专业的AI翻唱生成工具,让用户能够轻松将任意歌曲转换为由虚拟歌手演绎的全新版本,为音乐二次创作带来了更多可能性。 本质上,Singify是一个高度智能的“AI歌声转换器
在AI绘画与文本生成图像领域,开源社区迎来了一位实力强劲的新选手:DeepFloyd IF。该模型由StabilityAI旗下的DeepFloyd实验室研发,其核心采用了一种创新的模块化、级联式神经网络架构,专门用于生成超高分辨率的高质量图片。 通俗地讲,你可以将它看作一个分工明确的“专家团队”。生
柴犬币(SHIB)图表形态逆转:更高低点预示趋势转变 在经历了数月的低迷与方向不明的盘整后,柴犬币(SHIB)的日线图表终于呈现出一个关键且清晰的技术信号:一系列更高的低点正在形成。这标志着此前主导市场的“更低的高点和更低的低点”的下降趋势结构已被打破,一种新的、更具建设性的价格形态正在确立。对于资
福特搁置欧洲2030年全面停售燃油车计划,因市场电动化进程不及预期。公司认为强制淘汰政策或适得其反,可能导致老旧高排放车辆持续使用,反而延缓减排。福特呼吁调整法规,为混合动力等过渡技术提供空间,并计划推出燃油与电动新车型以重振市场。
特斯拉Cybertruck车主为测试车辆“涉水模式”,故意将其驶入湖泊,导致车辆进水失去动力,人员被迫弃车逃生。警方以违反水域安全法规等多项指控逮捕司机。官方手册明确该模式仅适用于浅水区域,且涉水损坏不在保修范围内。此次事件警示公众需遵守法规并重视安全警告。





