游乐游手机版
首页/AI教程/文章详情

Agentic上下文工程:无需微调实现模型进化

时间:2026-06-23 14:35
是什么让一位AI自动化架构师发出“微调已死”的感慨?一篇来自斯坦福大学、SambaNova、UC伯克利的论文,最近在圈子里炸开了锅。他们提出的技术叫Agentic Context Engineering(主动式上下文工程),说白了就是让语言模型不靠微调也能自己迭代升级——这听着是不是有点碘伏传统认知

是什么让一位AI自动化架构师发出“微调已死”的感慨?一篇来自斯坦福大学、SambaNova、UC伯克利的论文,最近在圈子里炸开了锅。他们提出的技术叫Agentic Context Engineering(主动式上下文工程),说白了就是让语言模型不靠微调也能自己迭代升级——这听着是不是有点碘伏传统认知?

先别急,论文原文已经挂出来了:

论文标题:Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
论文地址:https://www.arxiv.org/abs/2510.04618

一切要从上下文适应说起

当代基于大语言模型的AI系统——无论是智能体还是复合式AI系统——越来越依赖一种叫“上下文自适应”的能力。什么是上下文自适应?简单来说,就是在模型训练完成后,通过往输入里塞更明确的指令、结构化的推理步骤或者领域特定的格式,来提升模型表现。这和直接改模型参数的微调,完全是两条路。

上下文这东西,其实构成了好多AI系统组件的底座:引导下游任务的系统提示词、承载过往事实和经验的记忆机制、用来减少幻觉和补充知识的事实证据……每一项都离不开它。

那为什么不用传统的参数更新,反而要折腾上下文呢?优势挺明显:对用户和开发者来说,上下文更直观、可解释;运行的时候能快速整合新知识;还能在复合系统的多个模型或模块之间共享。再加上长上下文语言模型的进步,以及KV缓存复用这类高效推理机制,基于上下文的方法越来越落地。可以说,上下文自适应正在成为构建高性能、可扩展、能自我改进的AI系统的核心范式。

不过,现有的上下文自适应方法有两个明显的坑。

第一个是“简约偏置”。很多提示词优化器特别喜欢追求又短又通用的指令,觉得简洁就是好,结果把该积累的知识给忽略了。比如GEPA就把简短当成优点,但这么一抽象,实践中那些关键的领域启发式规则、工具使用指南、常见错误模式,全漏了。这种优化可能在部分指标上奏效,但碰上智能体或知识密集型应用,往往抓不住那些细致策略。

第二个是“上下文塌缩”。如果依赖LLM对整个提示大段大段地重写,随着时间推移,内容会变成越来越短、越来越模糊的摘要,性能直接跳水(见图2)。像交互式智能体、领域特定编程、金融或法律分析这类任务,系统性能靠的是保留细颗粒度、任务相关的知识,而不是把它们压缩掉。

随着智能体和知识密集型推理对可靠性的要求越来越高,研究正在转向构建“信息饱和”的上下文——也就是借助长上下文LLM的进展,把更多潜在有用的信息装进去。

斯坦福、SambaNova、UC伯克利这个团队的想法更激进:上下文不该是简短的摘要,而应该是一套全面、动态演化的“作战手册” —— 内容要详实、包容、充满领域洞见。而且,和人类不同,LLM在拿到长而细致的上下文时,表现反而更好,自己就能提炼关键信息。与其压缩领域的启发和策略,不如留着它们,让模型在推理时自己判断哪些最重要。

在这个核心洞察之上,主动式上下文工程(ACE)就诞生了。

主动式上下文工程(ACE)

ACE框架能实现可扩展且高效的上下文自适应,既适用离线场景(比如系统提示词优化),也适用在线场景(比如测试时的记忆自适应)。

和过去那种把知识蒸馏成简短摘要或静态指令的方法完全不同,ACE把上下文当成一本不断演化的作战手册,能持续积累、蒸馏和组织策略。

这个框架基于Dynamic Cheatsheet(参见arXiv:2504.07952)的智能体架构,引入了三种协作角色:

  • 生成器:负责生成推理轨迹
  • 反思器:从成功和错误中蒸馏出具体洞见
  • 整编器:把这些洞见整合进结构化的上下文更新

这个设计模仿了人类“实验–反思–整合”的学习方式,同时避免让单一模型承担所有职能带来的瓶颈。

为了应对前面提到的简约偏置和上下文塌缩,ACE引入了三个关键创新:

  • 专职反思者模块:把评估和洞见提取与整编过程解耦,提升上下文质量和下游性能
  • 增量式Delta更新机制:用局部编辑代替整体重写,大幅降低延迟和计算开销
  • Grow-and-Refine机制:在持续扩充内容的同时抑制冗余,实现上下文的稳态演化

工作流程是这样的:生成器先针对新任务生成推理轨迹,暴露有效策略和常见陷阱;反思器对这些轨迹评析提炼,可以多轮迭代优化;整编器再把经验整合成紧凑的增量条目,最后通过轻量的、非LLM的逻辑机制合并到现有上下文中。

因为更新是局部的,多个增量可以并行合并,实现批量适应和扩展。ACE还支持多轮自适应,同一个任务可以反复重访,持续强化上下文。

增量式Delta更新

ACE的核心设计理念是:把上下文表示成结构化的条目集合,而不是单一的提示词。

每个条目包含两部分:

  • 元数据:唯一标识符,以及“有用/有害”计数器
  • 内容:比如可复用策略、领域概念或常见错误模式

当解决新问题时,生成器会标记哪些条目起到了帮助或误导作用,给反思器提供改进依据。

这种条目化设计带来了三大特性:

  • 局部化:只更新相关条目
  • 细粒度检索:生成器可以聚焦最相关的知识
  • 增量式适应:推理时可以高效合并、剪枝和去重

ACE不会重写整个上下文,而是生成紧凑的增量上下文——由反思器提炼、整编器整合的一小组候选条目。这种方式避免了整体重写的高计算成本和延迟,同时保留了旧知识并持续吸收新见解。随着上下文增长,这种机制为长周期或高知识密度的任务提供了必要的可扩展性。

Grow-and-Refine

在持续增长的基础上,ACE通过定期或延迟蒸馏来确保上下文保持紧凑和相关。

在Grow-and-Refine过程中,新条目被追加到上下文中,已存在条目通过元数据更新(比如计数器递增)进行原地修订。去重步骤则通过语义嵌入比较条目相似度来消除冗余。这个过程可以在每次增量更新后主动执行,也可以在上下文窗口超限时被动触发,具体看延迟和精度要求。

增量更新和Grow-and-Refine机制共同维持了上下文的动态可扩展性和高相关性。

ACE的效果如何?

团队进行了实验来验证新方法。他们在两类任务上做了测试:智能体类任务和领域特定任务。

  • 智能体任务:采用AppWorld基准,涵盖多轮推理、工具调用与环境交互等复杂行为,包含普通和挑战两种难度,还设有公开排行榜。
  • 领域特定任务:聚焦金融分析,使用FiNER和Formula两个数据集——前者要求识别XBRL财报文档中的细粒度实体类型,后者考察模型在结构化财报中的数值推理与计算能力。

对比的基线方法包括:

  • ICL(上下文学习):在输入中提供示例实现少样本学习
  • MIPROv2和GEPA:两种主流提示词优化算法
  • Dynamic Cheatsheet(DC):一种测试时自适应记忆机制

相比之下,ACE在相同基模型和运行条件下,通过“生成–反思–整合”的主动上下文工程框架,实现了更高的准确度、更快的适应速度和更低的计算成本。

实验结果非常亮眼,下图给出了整体表现——优势相当明显。

ACE确实能实现高性能、自我改进的智能体。通过动态优化输入上下文,ACE让智能体实现了自我改进。在AppWorld基准上,无需标注数据,仅凭执行反馈就能提升性能高达17.1%,让开源小模型的表现接近最强商用系统。

下图展示了在AppWorld基准上ACE生成的上下文示例(部分)。可以看到,ACE生成的上下文包含了详细的、领域特定的洞见,还有可直接使用的工具和代码,构成了一个面向大语言模型应用的完整“作战手册”。

ACE也能大幅提升领域特定任务的表现。在复杂的金融推理任务中,通过构建富含领域知识的“作战手册”,平均性能提升8.6%。

团队还通过消融实验验证了新设计的有效性,结果说明反思器和多轮蒸馏等组件对性能提升至关重要。

最后,团队分析了ACE的成本与延迟,两个指标都有显著下降:通过增量更新和轻量化合并机制,适应延迟平均降低86.9%,并减少了生成消耗。

至于ACE能不能真的让“微调已死”,这还得看读者您自己的判断——毕竟这篇研究在网上也招来了一些批评。

结语

团队给出了一个关键判断:“长上下文≠更高Serving成本。”虽然ACE生成的上下文比GEPA等方法更长,但并不会导致推理成本或显存使用线性增加。现代服务基础设施已经通过KV缓存复用、压缩与卸载等机制优化了长上下文负载,常用的上下文片段可以被缓存,避免重复计算。随着系统层优化持续进步,长上下文方法(比如ACE)的实际部署成本还会进一步下降。

团队还分析了这项研究对在线学习与持续学习的启示。在线学习和持续学习是应对分布漂移和训练数据有限性的重要方向。ACE为传统模型微调提供了一种灵活且高效的替代方案:更新上下文通常比更新模型参数成本更低,同时具备可解释性,还能实现选择性遗忘——这对隐私保护、合规以及剔除错误或过时信息来说,意义重大。

团队认为,ACE未来有望成为推动持续学习与负责任学习的核心机制之一。

你觉得这项技术的潜力如何?

来源:https://www.aiagiai.com/15004.html
上一篇Meta要求元宇宙团队立军令状 利用AI提升5倍工作效率 下一篇亚马逊1.4万人裁员中被AI淘汰的员工
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
刚刚,OpenClaw和Cursor杀入手机!
AI教程 · 2026-07-01

刚刚,OpenClaw和Cursor杀入手机!

AI Agent,真的开始从电脑里“跑出来”了。以前我们用 Agent,基本离不开网页、IDE、终端、云环境。你想让它写代码、查资料、改项目、跑任务,很多时候还得坐在工位前盯着。但现在不一样了。OpenClaw 推出了 iOS 和安卓原生 App,手机可以变成私有 Agent 网络里的一个移动节点。

幻灯片排版优化AI智能助手,节省时间与精力
AI教程 · 2026-07-01

幻灯片排版优化AI智能助手,节省时间与精力

说起来,今天想和大家聊聊一个特别实在的话题:怎么用AI工具把PPT排版效率提上去,真正省下时间和精力。谁不想在忙忙碌碌的工作里找到点儿省事的诀窍呢?我有个朋友,为了准备一次重要汇报,连着熬了三个晚上折腾PPT,最后出来的效果也就是勉强及格。要是当时他能用上AI工具,结果会不会完全不一样?PPT排版优

AI排版软件让文档制作轻松又高效
AI教程 · 2026-07-01

AI排版软件让文档制作轻松又高效

AI智能排版工具通过自动识别文档结构、调整格式,显著提升排版效率。实际案例显示,文档处理时间可缩短约50%,项目交付效率提高40%。其功能涵盖自动排版、模板库、智能校对等,重构了文档制作流程,使用户专注内容创作,提升专业形象与市场竞争力。

Karpathy晒邮件曝光注意力机制真正起源:10年前三项独立研究
AI教程 · 2026-07-01

Karpathy晒邮件曝光注意力机制真正起源:10年前三项独立研究

2014年,三项研究几乎同时独立提出注意力机制:DzmitryBahdanau在YoshuaBengio实验室开发出RNNSearch(后称注意力),AlexGraves和JasonWeston团队也发表了类似机制。该思想源于解决循环神经网络信息瓶颈的需求,采用可微加权平均,成为深度学习核心算法。

如何选择AI排版工具与技巧提升内容创作效率
AI教程 · 2026-07-01

如何选择AI排版工具与技巧提升内容创作效率

AI排版工具推荐与技巧:如何提升内容创作效率与视觉设计效果其实,AI排版早已成为内容创作领域的热门话题。在信息爆炸的时代,大家都想知道如何让内容在海量信息中脱颖而出。简单来说,AI排版就是借助人工智能技术自动化处理文本、图像等内容的布局与设计。不妨想象一下:星巴克菜单上那些赏心悦目的排版,背后可能就