首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
复旦自进化Harness工程让GPT‑5.4性能再提升七个点

复旦自进化Harness工程让GPT‑5.4性能再提升七个点

热心网友
52
转载
2026-05-21

如果说2026年AI领域有什么共识正在加速形成,那就是:大模型本身的能力,越来越依赖于一套精密的外部框架来释放。OpenAI、Anthropic、LangChain等机构的技术博客,以及OpenClaw、Hermes Agent等项目的火爆,都指向同一个热词——Harness Engineering(缰绳工程)。

原因很清晰:模型能力的迭代以月为单位,任务场景却日益复杂和长尾,而框架(Harness)的优化高度依赖人工经验。这引出了一个核心的工程挑战:在Harness的迭代循环中,哪些环节可以实现自动化?如何让框架具备自我学习和改进的能力?

近期,来自复旦大学、北京大学和上海奇绩智峰的团队提出了一个极具启发性的解决方案:Agentic Harness Engineering (AHE)。这是一套以可观测性为核心驱动的Harness自动化优化方法,旨在端到端地贯穿框架工程全流程,从而最大化释放模型的潜能。

图片

从实验结果来看,这套方法成效显著。使用GPT-5.4时,AHE将模型在Terminal-Bench 2上的评测分数从69.7分迭代提升到了77.0分。更值得一提的是,当GPT-5.5发布后,AHE能迅速演化出与之适配的新Harness,并在相关评测榜单位列全球第三。这背后,是自动迭代出的框架展现出了优秀的跨模型和跨任务泛化能力,说明它学习到的是通用的工程原则,而非针对特定评测集的“应试技巧”。

图片

目前,相关论文已在社交平台X上获得了超过10万次的浏览与讨论,引发了业界广泛关注。

图片

为什么要设计可观测体系?

要理解AHE,首先需要洞察Harness Engineering的本质。我们可以从三个维度来审视它。

图片

从形态上看,模型和Harness共同构成了一个与环境交互的智能体。模型处于概率空间,是智能与不确定性的来源;而Harness则是包裹其外的确定性组件,包括系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆等。在智能体执行复杂、长期的生产力任务时,Harness是确保其行为稳定、一致、可控的关键保障。

从目的上看,Harness的核心职能之一是管理模型与环境之间的双向信息流:一方面在合适时机将任务、用户意图、环境状态等信息传递给模型,另一方面则将模型的输出忠实地记录、校验后交回环境执行。过去,开发者需要手动拼凑这些上下文,而Harness的目标就是让这种信息流动更精准、更自主。

那么,Harness Engineering的方法论是什么?最基础的一层,是独立优化各个组件代码,这依赖于扎实的工程开发,让每个部分变得更高效、安全。

但更进一步,对于特定环境,寻找最优Harness就变成了一个模型、框架、环境三者的组合优化问题。这无法依赖人类先验知识一步到位,必须通过开发、观测、迭代的循环,根据模型的运行轨迹和评测结果反复调整。

问题在于,人类的注意力是稀缺资源。因此,一个自然的思路是:让智能体自身也参与到框架的优化过程中来。只要将优化目标、动作空间和状态空间以智能体可读的方式呈现,就能引入智能体进行自主优化。这正是AHE设计其可观测体系的根本出发点。

可观测体系:组件、经验、决策

Harness的开发通常经历编写组件、运行智能体、收集反馈的迭代循环。要让智能体接手这项工作,就必须让过程中产生的所有上下文变得可观测,并且实现结构化和层次化。

AHE方法由三个核心智能体角色构成:执行测试的Coding Agent、负责整理轨迹的Agent Debugger,以及修改框架实现进化的Evolve Agent。其可观测体系也相应分为三部分:

1. 组件可观测性:解耦的“声明式Harness”
Coding Agent基于名为NexAU的框架运行。AHE将Harness拆解为七种正交的文件级组件:系统提示词、工具描述、工具实现、中间件、技能、子智能体配置、长期记忆。每个组件都是独立文件,有明确的挂载点,彼此结构解耦。

这种设计的优势在于,它让“失败模式”与“单一组件”的映射关系变得极其清晰。所有修改通过Git进行版本管理,确保了每次变更都可追溯、可审计、可回滚。而作为优化起点的Coding Agent,则从一个“零先验”的极简形态开始,确保后续每一次组件新增或提示词修改,都能被清晰地归因。

2. 经验可观测性:把海量轨迹变成可消费资产
一次完整评测产生的原始轨迹动辄数千万Token,直接丢给Evolve Agent只会淹没其上下文窗口。为此,AHE开发了一套名为Agent Debugger的分层提炼流水线:底层完整记录原始轨迹;中层由Cleaner去除重复工具输出;上层则通过一个QA子智能体,针对每道题的多次运行结果进行策略性分析。最终,所有分析汇聚成一份约1万Token的概览报告,供Evolve Agent高效消费。

这本质上是一种渐进式披露的设计。Evolve Agent默认只需阅读概览,但在需要核实时,可以随时回溯查看单题细节乃至原始轨迹,从而将海量数据转化为可并发处理、可审计的经验资产。

3. 决策可观测性:证据驱动的修改
图片

Evolve Agent的设计原则非常克制,以确保进化过程的稳定:它只能修改工作区内的Harness组件文件,评测框架、LLM配置等均为只读,杜绝任何取巧行为。每次修改都必须附带一份详细的“变更清单”,包括失败证据、推断根因、修改方案以及自我声明的性能预测。下一轮评测则充当验证者:预测正确的修改保留,预测错误的则自主决定回滚。

如此一来,每一次Harness的变动,都不再是工程师的直觉或抽象经验,而是一条可以被下一轮实验证伪的“科学假说”。框架的进化,由此从一门艺术走向了工程,从依赖经验走向了遵循科学。

实验结果:超越人类专家,展现强大泛化能力

图片

在主实验中,AHE将GPT-5.4驱动的Coding Agent在Terminal-Bench 2上的pass@1分数从69.7%提升至77.0%,绝对提升7.3个百分点。这一成绩超越了使用同版本模型的其他主流方案。

更值得关注的是其展现出的泛化能力:

跨任务泛化: 将在Terminal-Bench 2上演化得到的Harness,直接迁移到SWE-Bench Verified任务上,AHE以更少的Token消耗实现了比对比基线更高的成功率。这表明演化学到的是可迁移的通用工程经验,而非针对特定评测集的“过拟合”知识。
图片

跨模型泛化: 将同一份由GPT-5.4演化得到的Harness,直接配到Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4上,不做任何调整。结果显示,三种模型均获得了显著提升(+5.1到+10.1个百分点),且模型基础能力越弱,提升幅度越大。这证明演化出的Harness蕴含了一些普适的结构性原则,而非为某个特定模型定制。
图片

价值沉淀:事实比策略更可迁移

在探索过程中,团队也经历过失败。早期仅在30道高难度题目上进行演化,结果智能体学会了针对特定题目的“黑客技巧”,导致性能在局部震荡,无法持续提升。将题集扩大到89题全集并加入人工方法论指导后,过拟合虽缓解,但演化很快陷入瓶颈,75.3%就触顶,且78%的修改都集中在中间件层——人工引入的行为先验,反而成了进化僵化的源头。

最终版本的突破来自两个关键改动:一是在评测时每题运行两次,通过差异对比定位更精准的诊断信号;二是删除了所有行为指导,只保留证据驱动的过程要求和回滚规则。结果,性能稳步提升至77.0%,且修改分布变得健康均衡。

图片

一个反直觉的发现来自消融实验。当把AHE演化得到的四类组件(记忆、工具、中间件、系统提示词)逐一放回初始框架测试时,结果出乎意料:记忆(Memory)组件单独就能恢复全局性能增幅的95%以上,工具组件对中等难度题目提升显著,而单独迁移系统提示词反而导致性能下降。

这或许揭示了一个深层逻辑:提示词的语义往往是策略性的(“你应该这样做”),而记忆和工具的语义是事实性的(“这里有一段可复用代码”或“这是一个可用功能”)。事实比策略具有更好的可迁移性,它们在保留有效信息的同时,维持了更强的泛化能力。这也解释了为何人类试图用方法论指导演化智能体时会失败——开发者习惯于教授策略,而模型更擅长从事实中学习。

结语:可观测的进化循环将加速AGI进程

AHE带来的最大启示或许在于:当模型足够强大时,搭建一个结构化的、高度可观测的演化环境,比直接动手开发某个具体的Harness更为重要。构建好观测体系,让演化智能体能够清晰访问组件、轨迹和反馈,然后在全量数据上运行测试,就足以演化出具备竞争力的框架。

无需替智能体思考任何具体的方法论,只需提供一个清晰的工作区、明确的修改接口和高质量的反馈信号,演化智能体的行为便会自动向优秀工程师的实践收敛。这标志着框架工程进入了一个新阶段:是时候让Harness本身也开始进化了。

来源:https://www.51cto.com/article/843819.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

全球十大虚拟货币行情软件排名 实时行情与交易平台推荐
web3.0
全球十大虚拟货币行情软件排名 实时行情与交易平台推荐

全球十大虚拟资产行情软件深度盘点:如何找到你的市场“导航仪”? 在瞬息万变的数字资产市场,一款得心应手的行情软件,就如同交易者的“导航仪”。它不仅需要提供及时准确的数据,更要能贴合你的使用习惯和投资策略。面对市场上琳琅满目的选择,究竟哪一款才是你的“最佳拍档”? 接下来,我们将从全球视野出发,为你梳

热心网友
05.21
复旦自进化Harness工程让GPT‑5.4性能再提升七个点
AI资讯
复旦自进化Harness工程让GPT‑5.4性能再提升七个点

复旦大学等机构提出AgenticHarnessEngineering方法,以可观测性为核心实现框架自动优化。实验显示,该方法将GPT-5 4在Terminal-Bench2上的得分从69 7提升至77 0,并能快速适配新模型,在相关评测中位列全球第三。其演化出的框架展现出优秀的跨任务与跨模型泛化能力,表明学习到的是通用工程经验而非特定技巧。

热心网友
05.21
复旦自进化工程让GPT5.4性能再提升7%
AI资讯
复旦自进化工程让GPT5.4性能再提升7%

复旦大学等机构提出AgenticHarnessEngineering方法,通过构建可观测体系将Harness拆解为独立组件,利用智能体分析运行轨迹并自主迭代优化。实验显示,该方法使GPT-5 4在基准测试得分提升7 3%,优化后的框架具备优秀的跨模型与跨任务泛化能力,其性能提升源于学习通用工程经验而非针对特定评测的过拟合。

热心网友
05.20
复旦自进化工程突破GPT-5.4性能再提升7%
AI资讯
复旦自进化工程突破GPT-5.4性能再提升7%

2026年,HarnessEngineering(智能体框架工程)成为行业焦点。但Harness迭代高度依赖人工,面临自动化挑战。复旦等团队提出AgenticHarnessEngineering方案,通过可观测性驱动自动化端到端优化流程。实验显示,该方案将GPT-5 4模型在Terminal-Bench2基准分数从69 7提升至77 0,并能快速适配新模型G

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

币圈入门指南:详解区块链行业与打新玩法全攻略
web3.0
币圈入门指南:详解区块链行业与打新玩法全攻略

Web3与加密货币世界深度解析:从入门到精通 随着区块链技术的不断成熟与普及,一个被称为“Web3”的全新数字时代正在加速到来。这个以去中心化为核心理念的生态系统,正深刻改变着我们对价值、所有权和信任的认知。对于广大投资者和科技爱好者而言,理解这个常被称为“币圈”的领域,不仅是把握前沿趋势的关键,更

热心网友
05.23
币安官网入口:Binance交易所官方主页安全链接直达
web3.0
币安官网入口:Binance交易所官方主页安全链接直达

币安交易所提供官方注册与安全登录服务。用户可通过官网直达主页,确保使用正规渠道进行账户操作,保障资产安全。平台强调安全登录的重要性,建议用户直接访问官方链接以避免风险。

热心网友
05.23
QoderWake数字分身动作捕捉与还原技术详解
AI资讯
QoderWake数字分身动作捕捉与还原技术详解

QoderWake数字分身通过五大核心技术实现动作精准捕捉与还原。基于Session账本三维锚定行为轨迹,确保可追溯与复现。Harness-First架构隔离意图与执行,保障操作安全。Critic-Refiner机制自动验证动作质量并闭环纠偏。防腐治理动态评估动作有效性,防止模板老化。Connector生态建立跨工具动作映射,确保异构系统间操作一致。这些技术

热心网友
05.23
简历工作经历优化技巧 AI助你告别流水账式写法
AI资讯
简历工作经历优化技巧 AI助你告别流水账式写法

简历应避免流水账式经历和空洞评价。工作经历需用“动词+成果+数据”结构突出价值,如具体增长或性能提升数据。自我评价应基于事实,清晰展示核心优势与证明。AI工具可辅助优化结构,但关键数据、业务背景及岗位匹配逻辑需自行把控,核心在于用结果和证据展现个人价值。

热心网友
05.23
PDF英文翻译三种实用方法详解
AI教程
PDF英文翻译三种实用方法详解

翻译PDF英文文档需兼顾效率与质量。全球化背景下,此类需求日益普遍。可采用专业工具辅助翻译,并建立术语库确保一致性。处理时需注意格式保留与术语准确,结合人工校对提升成果质量。根据文档类型选择合适工具,并充分利用外部资源进行核查。

热心网友
05.23