斯坦福研究：上下文远比参数重要，无需重训的AI新突破

首页

热心网友

转载

2025-10-31

近日，斯坦福大学与SambaNova Systems合作发表了题为《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》的研究论文。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

大数据文摘出品

斯坦福大学与AI计算公司SambaNova Systems在近期联合发布了一项突破性研究，提出了一种名为ACE（自主上下文工程）的创新框架。

该框架的核心价值在于，使人工智能系统无需重新训练模型参数的情况下，就能够实现持续的自我优化和性能提升。

论文链接：https://arxiv.org/abs/2510.04618v1

这项研究的核心理念在于，大型语言模型的实际能力不仅取决于参数规模，更关键的是"上下文质量"的构建水平。换句话说，谁能设计出最优的上下文结构，谁就能让模型表现出更出色的智能水平。

ACE框架的根本突破在于，它让模型不再依赖静态提示，转而采用动态、结构化且可迭代的"知识剧本"作为指导。

这些剧本详细记录了模型在任务执行过程中积累的策略、规则、模板和修正方案。无论是成功经验还是失败教训，都会被转化为一段"增量更新"信息。

与传统"提示词改写"方式不同，ACE通过安全的小步更新持续改进剧本内容，而非一次性推倒重来。

这种机制意味着，AI系统能够在实际运行中不断学习、记忆和改进，完全不需要进行任何参数微调。

ACE框架

研究团队特别指出，这一机制能够有效避免两种致命问题：一是简洁性偏差，即在追求简洁的优化过程中丢失关键细节；二是上下文崩塌，即重写导致的知识结构损坏。

论文中举例说明，在实验环境中，一个AI代理积累了1.8万个token的上下文内容，表现相当出色。但当模型试图对其进行"总结压缩"时，剧本被大幅削减至仅122个token，性能瞬间下降了57.1%。

研究人员直言不讳地指出："模型擅长使用知识，却不擅长整理知识。一次错误的重写操作，就可能摧毁全部的经验积累。"

该论文强调，ACE框架从结构层面上解决了这种"自毁式学习"的风险。

图注：ACE框架在三类典型任务（智能体操作、领域知识应用、数值推理）中的表现均显著优于传统方法，准确率提升幅度最为明显。

三角角色协作：生成、反思、统筹

ACE体系建立在一个极简的哲学基础上：不要重写已有知识，而要系统化管理知识。

整个框架被分解为三个互补的职能角色。

第一个是生成器。它负责执行具体任务，与环境进行实时交互，生成推理过程、代码指令或操作序列。

第二个是反思器。它会深入分析生成器的行动轨迹，识别成功与失败的根本原因，提炼出"可操作的经验教训"。这些反馈信号可能来自代码错误、执行结果或外部标签信息。

第三个是统筹器。它负责将这些实践经验提炼为结构化条款，并通过确定性规则（非语言模型决策）将其整合进主剧本。

这样的三层循环——行动、反思、整合，构成了ACE框架的学习闭环。

每次更新只会影响局部条款，不会触及整体文本结构。

这种局部增量机制，使得知识库既能持续扩展，又不会发生结构性崩塌。

剧本本身采用项目化结构设计：包含策略规则、API调用模板、调试经验、常见问题解决方案等。每条条款都附带使用计数与正负反馈元数据。

反思器会根据这些记录判断哪些规则有效、哪些已经失效。

统筹器则据此进行修改或删除操作。

论文称，这种方式让AI的知识积累"如同Git代码仓库一样演化"，能够安全地生长、精细地修剪、透明地追溯。

研究团队强调，ACE的复杂度并非系统负担，而是一种结构化的安全保障，以微小的系统开销换取知识的稳定积累。

小模型"越级挑战"：DeepSeek击败GPT-4.1

在复杂的AppWorld代理任务测试中，ACE框架带来了平均性能提升10.6%的显著效果，同时将适应延迟降低了86.9%。

研究团队特别提到，这一提升并非依赖于更大的模型规模，而是源于更优质的上下文管理策略。

一个典型案例是：DeepSeek V3.1模型的参数量明显低于GPT-4.1。但在ACE框架加持下，它在AppWorld基准测试中，竟能与GPT-4.1代理（IBM CUGA版本）的表现持平，甚至在更复杂的测试集上实现了反超。

研究者指出，这一结果充分证明，"上下文工程"已成为新的算力平衡器。

更重要的是，ACE框架展现出惊人的效率优势。在多轮任务学习过程中，其更新延迟减少了82%至91%，token使用成本下降了83.6%。

图注：在金融分析任务中，ACE框架显著提升了模型表现（平均提升约8.6%），即使没有真实标签数据，模型仍能保持稳定的输出质量。

论文认为，这使得"在线持续学习"从概念变为现实。AI不再需要频繁地进行微调，而是在运行中就能完成自我优化。

同时，ACE的结构化剧本让学习过程变得可解释、可审计、可撤回。

如果某条规则被发现过时、存在偏见或违反规定，系统可以精准删除对应条款，实现"选择性遗忘"。

来源:https://www.51cto.com/article/828564.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：自然堂双11十亿补贴来袭，自研科技赋能国货美妆新体验下一篇：原PyTorch成员爆料：为何AI巨头坚持选择PyTorch开发大模型？

热门推荐

web3.0

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑，终于有了实质性进展。美国证券交易委员会（SEC）主席保罗·阿特金斯（Paul Atkins）近日证实，那份允许加密项目在早期获得注册豁免权的“安全港”框架提案，已经正式送抵白宫，进入了最终审查阶段。在范德堡大学与区块链协会联合举办的数字资产峰会上，阿特金斯透露了这

热心网友

04.08

web3.0

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告：第一季录得144 6亿美元浮亏再斥资约3 3亿美元买进4871枚比特币市场震荡的威力有多大？看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告，受市场剧烈波动影响，这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友

04.08

web3.0

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向，向来是加密世界的风向标。这不，它向Web3基础设施的版图扩张，又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露，其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出，立刻引发了行业的广泛猜想。采用D

热心网友

04.08

web3.0

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol，日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议，在运营不到三年后，终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets（ILMs）——一

热心网友

04.08

web3.0

PAAL代币如何参与治理？社区投票能决定哪些事项？

PAAL代币揭秘：深度解析Web3社区治理的核心钥匙在去中心化自治组织的浪潮中，谁真正掌握了项目的话语权？PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介，更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币，用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友

04.08