游乐游手机版
首页/AI教程/文章详情

上下文工程硅谷爆火 Karpathy亲自站台 提示工程瞬间失宠

时间:2026-06-24 11:36
提示工程的风头还没过去,「上下文工程」已经悄然掀起波澜。在硅谷大佬圈里,这事儿最近被反复提及,连Andrej Karpathy都公开站台,足见其热度。 Shopify的CEO Tobias Lütke也来“补了一刀”,说他更喜欢「上下文工程」这个说法,因为它精准概括了一个核心技能——如何通过提供完整

提示工程的风头还没过去,「上下文工程」已经悄然掀起波澜。在硅谷大佬圈里,这事儿最近被反复提及,连Andrej Karpathy都公开站台,足见其热度。

Shopify的CEO Tobias Lütke也来“补了一刀”,说他更喜欢「上下文工程」这个说法,因为它精准概括了一个核心技能——如何通过提供完整的背景信息,让大模型真正理解问题并合理解决。说白了,这不就是门艺术吗?

一夜之间,这个概念就红了。凭什么?

上下文工程,一夜爆红

背后的推手,是AI智能体的全面崛起。OpenAI的总裁Greg Brockman不止一次高喊,“2025年,是AI智能体的元年”。

而智能体能不能成,关键就看上下文的质量。那些加载到“有限工作记忆”里的信息,变得越来越重要。绝大多数智能体翻车的案例,仔细复盘下来,原因往往不是模型本身不行,而是给的信息不对、不全。换句话说,是上下文的失败。

那么,这里的“上下文”到底指什么?

要搞懂这个问题,得先拓展一下它的定义。它绝不仅仅是你发给LLM的那一段文字提示。不妨这样理解:上下文是模型在生成回答之前,看到的“一切”。它包括但不限于:

  • 指令/系统提示:那些定义模型行为的基础规则、示例和边界。
  • 用户提示:你提出的即时任务或问题。
  • 状态/历史(短期记忆):当前这次对话全过程的来龙去脉。
  • 长期记忆:跨越多轮对话后积累下来的持久性信息,像是用户的偏好、项目的摘要。
  • 检索信息(RAG):从外部知识库、数据库或API里掏出来的实时、相关信息。
  • 可用工具:模型能够调用的各种功能,比如查库存、发邮件。
  • 结构化输出:要求模型以特定格式(比如JSON)返回数据的定义。

看到了吧?和传统那种死磕一个完美提示词的“提示词工程”不同,“上下文工程”的范畴要宽泛得多,也更接近实战。

用大白话总结一下:上下文工程就是一门设计和构建动态系统的学问。这个系统要能在对的时间,以对的格式,提供对的信息和工具,让模型手上不缺“弹药”,能安心完成任务。它有这么几个显著特点:

  • 它是一个系统,不是一个字符串。上下文不是死的模板,而是系统在主任务执行前,动态计算出来的结果。
  • 它是动态的。上下文是“即用即生成”,完全为当前任务定制。比如一个请求可能需要查日历,另一个则要去搜邮件或网页。
  • 强调适时提供信息与工具。核心是确保模型不遗漏关键细节,坚决贯彻“垃圾进,垃圾出”的铁律。只在必要且有价值的时候,才给模型投喂知识和工具。
  • 注重格式。信息怎么呈现,至关重要。一份精炼的摘要,远胜于一堆原始数据的生硬堆砌;一个清晰的工具接口说明,也比一句模糊的指令管用。

是一门科学,也是一门艺术

Karpathy在长文里也强调,这玩意儿就是门艺术。很多人一想到提示词(prompt),脑子里蹦出的就是日常使用的简短任务描述。

但真正放到工业级的LLM应用里,上下文工程既是精深科学,也是巧妙艺术。它的核心就一件事:用恰到好处的信息,精准填满上下文窗口。

说它是科学,是因为要做好这件事,需要综合运用任务描述、少样本学习、RAG、多模态数据处理、工具调用、历史记录管理、信息压缩等一系列技术。信息给少了,模型理解不到位;信息给多了,成本上去了,性能反倒下降。拿捏这个度,非常复杂。

说它是艺术,是因为这中间充满了开发者对模型“脾性”的直觉把握和引导。要知道,一个完整的LLM应用,远不止上下文工程本身。它还要处理:

  • 如何将复杂问题拆解成合理的控制流程?
  • 如何精准填充上下文窗口?
  • 如何将不同的请求派发给类型和能力合适的LLM?
  • 如何处理“生成-验证”的用户界面流程?
  • 还有安全护栏、效果评估、并行处理、数据预取等等…

所以,“上下文工程”只是这个正在兴起的、厚重且复杂的软件层中的一小部分。这个软件层负责把单个LLM调用,以及其他所有相关操作都整合协调起来。Karpathy说得直接,把这类应用轻率地称为“ChatGPT的套壳”,这说法不仅过时,而且大错特错。

有网友戏称这是“氛围编程”,Karpathy回应道,倒不是非要去发明新词,只是觉得大家一提“提示词”,就容易把一个相当复杂的组件给想简单了。平时用个提示词问“天空为什么是蓝色的”,跟搭建一个为特定任务构建上下文的应用程序,完全不是一回事。

智能体成败,全靠它了

说到底,打造高效AI智能体的秘诀,不在于代码写得多精妙,而在于你提供的上下文质量有多高。一个粗糙的演示产品和让人惊艳的智能体,根本区别就在这里。

想象一下,一个AI助理需要根据一封简单的邮件来安排会议:“嘿,想问下你明天有空简单碰个头吗?”

如果给它的上下文很贫乏,它只能看到用户的请求。即便代码功能齐全,输出的结果也会很机械:“感谢您的消息。我明天可以。请问您想约在什么时间?”

但有了丰富的上下文加持,情况就完全不同。代码的主要任务不再是思考怎么回复,而是去收集LLM达成目标所需的信息。在调用模型前,系统已经自动扩展了上下文,包含了:

  • 日历信息:显示你这天已经排满了。
  • 与此人过往的邮件:判断出应该用哪种语气。
  • 联系人列表:识别出对方是重要合作伙伴。
  • 可用于发送邀请或邮件的工具。

于是,一个惊艳的回复就生成了:“嘿,Jim!我明天日程完全排满了。周四上午我有空,你看方便吗?邀请已经发给你了,看这个时间行不行。”

这种体验背后的奥秘,不在于模型更聪明或算法更高明,而在于“在正确的任务,提供了正确的上下文”。这,就是上下文工程如此重要的原因。

所以再强调一遍:智能体的失败,不只是模型的失败,更是上下文的失败。要构建可靠的AI智能体,我们正逐渐摆脱对“万能提示词”的迷恋,也不纯粹依赖模型更新。其核心在于对上下文的工程化构建——在恰当的时机、以恰当的格式,提供恰当的信息和工具。这是一项跨职能的挑战,它要求我们深入理解业务、明确输出目标,并精心组织所有信息,才能让LLM真正“把活儿干了”。

借用网友的一句话做个收尾吧:“记忆”才是AGI拼图的最后一块。

来源:https://www.aiagiai.com/12563.html
上一篇半年196个DeepSeek大单,这5个省份投资最热 下一篇苹果开发者自曝用Claude完成95%开发并上架
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
RAG四标融合企业知识资产体系四库协同GEO优化实践
AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验
AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
AI教程 · 2026-07-01

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。

GEO优化深度解析:AI偏好FAQ还是长文内容?
AI教程 · 2026-07-01

GEO优化深度解析:AI偏好FAQ还是长文内容?

在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。