游乐游手机版
首页/业界动态/文章详情

微软开源工作手册解决AI重复错误准确率飙升

时间:2026-07-05 12:45
编辑 | 王凤枝 凡是体验过Claude Code、Codex或其他AI编程助手的开发者,大多会产生类似的感受:明明刚给过它一次提醒,但下一次面对类似的场景,它还是会犯相同的错误。 你对它说“代码写完记得运行测试”,它这次听话照做了;可换一个任务,它就把这句叮嘱忘得干干净净。你补充一句“不要直接修改

编辑 | 王凤枝

凡是体验过Claude Code、Codex或其他AI编程助手的开发者,大多会产生类似的感受:明明刚给过它一次提醒,但下一次面对类似的场景,它还是会犯相同的错误。

你对它说“代码写完记得运行测试”,它这次听话照做了;可换一个任务,它就把这句叮嘱忘得干干净净。你补充一句“不要直接修改配置文件”,它当场记住了;但几天后碰到类似情况,又得重新强调一遍。

面对这种困境,最直观的应对思路是换一个更强的模型。然而微软研究院等团队开源的SkillOpt给出了另一种解决方案:先别急着升级模型,说不定该优化的是AI助手每次执行任务前参考的那份工作手册。

编程助手只是最容易感知这一问题的主要场景。SkillOpt的实验范围远不止代码任务,还涵盖了问答、表格处理、文档分析、多模态理解、数学推理以及具身智能体。它真正探讨的核心命题是:模型每次执行任务前读取的操作流程说明,是否可以被系统化地测试、更新和回滚。

训练流程,而非模型权重

SkillOpt项目页将其核心理念概括得非常直白:训练流程,不训练权重。

这里所说的skill(技能/工作手册),本质上是一份写给AI助手的标准操作流程:当它遇到某类任务时,应该先看什么、如何查证、使用哪些工具、输出格式有何要求、哪些常见陷阱必须避开。

实际上,许多团队已经在采用类似做法。项目仓库中通常包含AGENTS.md、CLAUDE.md、SKILL.md这类文件,用来告知模型这个仓库的工作方式、哪些命令需要运行、哪些文件不能随意修改、以及何时必须停下来询问人类。

问题在于,这些说明文件通常依靠人工来维护:发生一次事故,就补上一条规则;复盘发现遗漏,再修改几句;等到下次类似任务出错时,才意识到那条说明可能已经过时了。它们虽然能被模型读取,却很少被认真优化过。

SkillOpt的创新之处在于,它将这份用自然语言编写的工作手册当作一个可以被训练的对象。

具体做法是:固定目标模型和执行环境,让系统带着当前的skill去执行一批任务,记录执行轨迹并计算得分;然后由另一个优化模型分析成功与失败的记录,提出对skill文件的增删改建议;最后把候选的skill放到保留验证集上测试,只有当分数确实提升时,才正式采纳这次修改。

这套流程听起来很像机器学习中的训练过程,但最终被修改的并非模型权重,而是一份Markdown格式的文档。

经验写下来,不等于真正学会

现有许多智能体系统已经能够从失败的执行轨迹中总结教训,并将经验存入记忆库、反思记录或新的提示词中。然而,经验被写进去,并不代表下次一定会被正确运用。

因此,SkillOpt为skill修改额外增加了几道严格约束。

第一,修改有预算限制。论文中把每轮允许修改的skill条数设为一个“文本学习率”,防止优化模型一开始就把整份文件重写。

第二,候选修改必须通过验证关卡。即使训练任务上的表现变好了,也不算数;只有保留验证集上的得分真正提升,这条修改才会被纳入当前版本。

第三,被拒绝的修改不会完全丢弃。它们会被存进“被拒编辑缓冲区”,作为后续优化时的反面教材:哪些改法看似合理,实际上却会损害性能。

第四,短期调整与长期模式分开处理。系统不会让每一步都被局部结果牵着走,而是允许它在一个更长的周期中吸收稳定的经验。

SkillOpt的反直觉之处就在这里:AI助手变强,不一定只依赖模型权重的更新,也可能通过一份更善于学习的工作手册来实现。

实验结果:小手册也能带来显著差距

论文中的实验结果需要放在原始评估框架中理解。

SkillOpt在6个基准测试、7个目标模型以及3种执行方式下,总共进行了52个评估组合。其中Codex和Claude Code这两类执行框架仅覆盖5个适配任务,ALFWorld并未纳入这两类框架。

按照论文正文的总体汇总口径,在GPT-5.5上,与不使用skill的基线相比,SkillOpt在直接对话模式下平均准确率提升了23.5个百分点;在Codex agentic loop中提升了24.8个百分点;在Claude Code中提升了19.1个百分点。

这些提升来源于论文设定下的特定任务、模型和执行环境,不能直接断言“所有AI助手都能提升二十多个百分点”。更严谨的说法是:在这套测试体系下,一份经过验证的工作手册已经能够显著影响智能体的表现。

最终保留的技能文件体积并不大。论文显示,6个基准测试中的best_skill.md长度在379到1995个token之间,中位数约为920个token。实际被接受的修改也很少,每个基准只有1到4次提交最终进入了skill文件,中位数是2.5次。

这与许多人想象中的“自进化agent”截然不同。它没有不断堆积大量的记忆,也没有把所有复盘内容都塞进提示词。大多数候选修改被挡在了验证门外,最后留下的只有少量、可读、可审计的流程规则。

它学到的是工作纪律

论文展示了一些学出来的规则。这些规则并非针对某道具体题目的答案,而是程序化的工作纪律。

换句话说,它学到的是“下次遇到类似问题时,应该先这样做”,而不是“这道题的答案是C”。

论文中给出了更具体的实例。在SpreadsheetBench任务中,优化后的skill会要求模型先检查工作簿的结构和公式,然后将计算后的静态值写入完整的目标区域,而不是单纯依赖Excel重新计算。在DocVQA任务中,它要求回答必须绑定到具体的视觉区域。在ALFWorld任务中,它会记录已经搜索过的位置,优先检查尚未访问的容器和表面,避免在同一批地点反复打转。

这些规则的语气非常接近人类写给同事的操作说明:直接、具体、带有条件约束。它们不会空喊“提高准确率”,而是直接告诉模型“先检查结构”“不要只看预览”“不要重复搜索已耗尽的位置”。SkillOpt与普通长提示词的本质区别也在这里:候选规则必须经过任务轨迹和验证门的筛选,最后留下的是少量能够稳定改善结果的动作规则。

论文还展示了两次运行细节。在ALFWorld中,初始skill只是一个通用的“搜索目标、拿起、转换、放到目的地”策略;优化后增加了对象名称匹配、已访问位置记忆、进度锁以及避免重复验证的规则,测试表现从49.3提升到了74.6。在SpreadsheetBench中,初始skill已经能够用Python处理表格,优化后进一步学会了检查真实的workbook、定位多sheet的表头和目标区域、规范化key与单元格类型,并在保存后重新打开workbook检查边界行和空白结果,测试表现从40.4提升到了78.9。

Prasenjit Sarkar在X上评论SkillOpt时写过一句话:模型没问题,有问题的是指令。

这句话解释了SkillOpt为何能引起AI编程工具用户的共鸣。当一个agent反复失败时,团队很容易认为模型不够强。但在许多工程场景中,失败可能源于流程没有写清楚、工具使用顺序不稳定、验证步骤未被强制执行、输出格式缺乏约束。

换一个更大的模型当然可能有效,但如果流程文件本身无法被训练、验证和回滚,同样的问题还会反复出现。

它和手写规则文件的区别在哪

SkillOpt很容易让人联想到当今各种AI编程工具中的规则文件。Cursor有rules,Claude Code会读取CLAUDE.md,Codex和许多agent harness也会读取项目说明。它们解决的是同一个问题:在模型进入一个项目之前,需要先了解这里的工作方式。

手写规则文件的典型问题是越写越长、规则之间相互矛盾、没人清楚哪条规则真正有效。一条规则可能是一次事故后的临时补丁,也可能只是某个人的偏好。它被写进文件后,不一定有人定期验证;失效了也不一定会被删除。

SkillOpt的不同之处在于,它将“规则是否有效”的判断权交还给任务表现。优化模型可以提议新增、删除或替换规则,但候选skill必须在保留验证集上表现更好才能被保留。被拒绝的编辑还会进入“被拒编辑缓冲区”,提醒后续优化不要再走同样的坏路。

这相当于给AGENTS.md、CLAUDE.md、SKILL.md这类文件增加了一层训练和验收机制:规则写进去之后,还需要被任务证明其价值;在规则文件越积越厚之前,也应当能够删除、回滚,并解释为什么保留。

“人工采纳”为何是必要的门槛

SkillOpt的论文发布于5月22日。GitHub README显示,项目在6月2日开放了PyPI v0.1.0,6月15日预览了SkillOpt-Sleep。Trendshift页面显示,截至6月30日,microsoft/SkillOpt已经收获了约1万个星标。

SkillOpt-Sleep面向ClaudeCode、Codex、Copilot这类本地编码智能体,其目标是在夜间复盘历史会话、离线重放高频任务,将那些通过验证门的经验整理成候选技能,并暂存供用户审阅和采纳。

这让SkillOpt从论文中的基准测试,逐步贴近普通AI编程工具用户的日常:白天让agent修改代码、运行测试、处理重复任务;晚上系统将这一天的会话拿去离线复盘,找出反复出现的失败模式;第二天再给出一组可以审阅、接受或拒绝的候选skill,而不是直接将新规则自动写入项目。

如果这条路线成立,AI编程助手的“学习”就不会仅限于下一代模型发布时。它也可能发生在团队自己的项目里:哪些命令总是需要运行,哪些目录不能触碰,哪些检查经常遗漏,哪些输出格式频繁出错——这些都可以从真实任务中转化为可验证的工作规则。

它仍需要能够打分的任务

SkillOpt还不是一个万能的“学习机”。

论文本身也列出了限制条件。它依赖于可评分的执行轨迹和保留验证集,因此最适合那些拥有自动评测、精确匹配、可执行检查或可靠反馈信号的任务。

如果任务是开放式写作、复杂判断、审美偏好或多目标编辑,那么验证门就没那么简单了。你很难仅仅通过一个分数来判断“当前的skill是否真的更好”。这时可能还需要人工评估,或更强的模型评审。

还有一个现实成本:训练这份skill本身需要运行额外的执行轨迹,同时也要调用优化模型。它的部署成本很低,但训练成本并非为零。只有当同一类任务会被反复执行时,这笔前期优化成本才更容易被摊薄。

此外,SkillOpt优化的是单一可移植的skill,而非庞大的技能库。对于高度异质的工作流而言,一份通用的技能可能不够用;不同的任务需要不同的skill,而这些skill之间还需要版本管理、归属、回滚和审计。

团队协作会让这个问题变得更加复杂。每个工程师都训练出自己的skill之后,项目需要区分哪些规则可以合并到团队文件,哪些只能留在个人偏好中;当规则相互冲突时,还需要有人决定优先级;当某条新规则提高了表格任务的表现,却损害了代码重构任务时,也需要重新划分它的归属。SkillOpt的论文尚未解决这些团队治理问题,但这类系统一旦进入真实项目,就绕不开它们。

因此,SkillOpt更像一个提醒:AI的经验要稳定上线,不能只靠“记住了”,还需要有触发、执行、验证和回滚机制。

AI的记忆,不能只靠写下来

Codex、Claude Code这类工具已经能够根据说明来调整行为。下一步要追问的,不只是“再给它多写几条规则”,而是这些规则能否被测试、被复用、被淘汰。

微软这篇论文没有修改模型权重,也没有承诺让agent在所有任务中自动变强。但它提醒了一件非常重要的事:AI助手的能力,不仅藏在模型里,也藏在那份看似普通的工作手册中。

如果这份手册能够被训练,那么AI agent的进步就不只依靠下一代大模型的发布,也可以来源于每一次任务之后的可验证复盘。

来源:https://www.163.com/tech/article/L0MFV7AK00097U7T.html
上一篇特斯拉FSD V14 Lite推送 老车主HW3芯片完美适配 下一篇特斯拉2026暑期购车钜惠 零利率分期车漆立减8000
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
中国牵头全球首个自动驾驶世界标准 L3/L4上路新阶段
业界动态 · 2026-07-05

中国牵头全球首个自动驾驶世界标准 L3/L4上路新阶段

2026年6月,联合国世界车辆法规协调组织通过全球首个自动驾驶技术法规,由中国等多国共同牵头。法规明确L3 L4级系统安全要求、全生命周期管理及测试方法,将于同年7月生效。中国同步推进强制性国家标准,衔接国际规则,推动自动驾驶进入合规新阶段。

当贝耳机Air 1正式发布,AI软硬件一体化全面落地
业界动态 · 2026-07-05

当贝耳机Air 1正式发布,AI软硬件一体化全面落地

提到当贝,许多人首先想到的便是“大屏”这一关键词。 这一点并不难理解。从服务超两亿用户的软件生态,到“每卖出两台激光投影,就有一台是当贝”的市场份额,这家智能科技企业在客厅场景中的影响力已十分稳固。然而,当贝的愿景显然不止局限于客厅。近期,当贝正式发布了其首款AI耳机——当贝耳机 Air 1。这绝非

万元起 杜卡迪全新揽途Multistrada V4 Rally上市
业界动态 · 2026-07-05

万元起 杜卡迪全新揽途Multistrada V4 Rally上市

杜卡迪全新揽途MultistradaV4Rally上市,起售价23 8万元。搭载V4Grandturismo发动机,标配自动降低装置、Skyhook悬挂及前后雷达,兼顾长途探险与运动性能。翡翠绿版限量10台,售价24 1万元。

美团CEO王兴自公司成立从未卖股且无计划
业界动态 · 2026-07-05

美团CEO王兴自公司成立从未卖股且无计划

在6月26日的美团股东大会上,CEO王兴放出了一个相当直白的表态:从公司成立至今,他个人手里的股票一股都没卖过,而且未来也没有任何减持计划。这话放在当前的市场环境下,分量不言而喻。 王兴还专门解释了去年那笔备受关注的股票转让——2024年他将个人持股的10%捐给了一家基金会。他强调,这完全是出于公益

芯明与钧舵机器人正式启动战略合作 深度融合生态共进
业界动态 · 2026-07-05

芯明与钧舵机器人正式启动战略合作 深度融合生态共进

1月22日,钧舵机器人与芯明智能等企业签署战略合作协议,旨在从芯片级到系统级融合机械结构、感知与控制算法,打造低成本、高灵活性的智能末端执行器,推动具身智能生态共建。