Weaviate构建智能体系统的上下文工程完整指南
超越提示词工程:揭秘构建智能AI系统的六大核心组件,掌握上下文工程打造真正懂需求的AI应用
在大模型应用开发中,单纯依赖提示词工程往往难以满足复杂场景的需求。如何构建一套能够根据上下文动态调整、具备持久记忆、并能调用外部工具的智能系统,才是打造高质量AI应用的关键所在。这项核心技术,被称为上下文工程(Context Engineering)。

大型语言模型的能力虽然令人惊叹,但开发者很快会发现一个现实难题:模型本身虽然强大,却像一座信息孤岛。它既无法读取你的私有文档,也不了解之前发生的对话,甚至在无法回答时会毫不犹豫地编造答案。
问题的根源在于上下文窗口——模型的工作记忆空间存在固有限制。它就像一块白板,一旦写满,旧内容就会被清除,关键信息随之丢失。单纯优化提示词,无法解决这一根本瓶颈。我们需要在模型周围,构建一整套支持系统。这正是上下文工程的核心价值。
上下文工程的六大核心组件
上下文工程是一门系统设计学科,目标是在恰当的时机,将正确的信息传递给大模型。它不改变模型本身,而是搭建模型与外部世界之间的高效桥梁。
1. 智能体(Agents)
决策大脑,负责协调何时使用何种信息,驱动整个系统运转。
2. 查询增强(Query Augmentation)
将混乱、模糊的用户请求,转化为机器能够精确理解的意图表达。
3. 检索(Retrieval)
连接模型与特定文档、知识库的核心桥梁,确保信息可访问。
4. 提示技术(Prompting Techniques)
通过清晰有效的指令,引导模型进行高质量推理与生成。
5. 记忆(Memory)
赋予应用“历史意识”,使其能够从交互中持续学习与改进。
6. 工具(Tools)
让应用能够直接执行操作,与实时数据源和服务进行交互。
智能体:动态决策的核心协调者
静态的“检索-生成”流程,在简单的RAG场景中或许够用。但一旦任务需要判断、适应或多步推理,这种固定模式就显得力不从心。
智能体是什么?
一个真正成熟的AI智能体,至少需要具备以下能力:
- 动态决策信息流:根据已获取的信息,自主决定下一步行动方向
- 维护跨交互状态:记录已执行的操作,用历史信息指导后续决策
- 根据结果调整策略:当一条路径行不通时,能够主动尝试其他方案
- 自适应使用工具:从可用工具中灵活选择,甚至组合出从未被明确编程的新用法
上下文窗口的核心挑战
LLM的信息处理容量有限,上下文窗口一次只能容纳一定量的内容。每次智能体处理信息时,都需要做出关键抉择:哪些信息应保留在上下文窗口?哪些应存储到外部,需要时再检索?哪些可以摘要或压缩以节省空间?还需预留多少空间给推理和规划?
更大的上下文窗口,并不能真正解决问题,反而可能引入新的复杂性。
常见的上下文错误类型:
- 上下文污染(Context Poisoning):错误或幻觉信息混入上下文,智能体反复使用,错误像滚雪球一样不断放大
- 上下文分散(Context Distraction):智能体被过多历史信息压垮,过度依赖重复过去的行为,而非重新思考
- 上下文混淆(Context Confusion):不相关的工具或文档挤满上下文,分散模型注意力,导致用错工具或误解指令
- 上下文冲突(Context Clash):上下文中的矛盾信息让智能体左右为难,陷入逻辑困境
智能体的核心策略与任务
智能体之所以能成为上下文系统的有效协调者,关键在于其动态推理与决策能力。常见任务包括:
- 上下文总结(Context Summarization):定期将累积历史压缩为摘要,减轻负担同时保留关键知识
- 质量验证(Quality Validation):检查检索到的信息是否一致、有用且可靠
- 上下文修剪(Context Pruning):主动删除不相关或过时的上下文内容
- 自适应检索策略(Adaptive Retrieval Strategies):重新表述查询、切换知识库或调整分块策略
- 上下文卸载(Context Offloading):将细节存储到外部,仅在需要时进行检索
- 动态工具选择(Dynamic Tool Selection):只加载与当前任务相关的工具,减少干扰
- 多源综合(Multi-Source Synthesis):整合多个来源的信息,解决冲突,提供连贯一致的回答
智能体在上下文工程中的角色定位
在上下文工程系统中,智能体扮演的是协调者角色。它不会取代其他技术,而是将它们智能地编排在一起,发挥协同效应。
查询增强:深入理解用户意图
上下文工程中至关重要的一步,是如何准备和呈现用户查询。如果搞不清楚用户真正在问什么,LLM自然无法给出准确回应。
两个核心问题:
- 用户交互往往不理想:现实场景中,用户与聊天机器人的对话常常含混不清、逻辑跳跃、信息不全。
- 不同管道需要不同的查询格式:LLM能理解的问题,未必是搜索向量数据库的最佳格式。
查询重写(Query Rewriting)
将原始用户查询,转换为更有效的检索版本。具体实现方式包括:
- 重构模糊问题:将不清晰或表述不当的输入,转化为精确、信息密集的术语
- 移除冗余上下文:删除可能干扰检索过程的不相关信息
- 关键词增强:引入常用术语,提高匹配到相关文档的概率
查询扩展(Query Expansion)
从单个用户输入中,生成多个相关查询,从而改善检索效果。这在查询本身模糊、表述不清或需要更广泛覆盖时尤为有效。
面临的挑战包括:
- 查询漂移(Query Drift):扩展后的查询可能偏离用户原本意图
- 过度扩展(Over-Expansion):添加过多术语反而会降低检索精度
- 计算开销(Computational Overhead):处理多个查询会增加系统延迟
查询分解(Query Decomposition)
将复杂、多维度的问题,拆解为更简单、更聚焦的子查询,让每个子查询都能独立处理。
通常分为两步:
- 分解阶段:LLM分析原始复杂查询,将其拆分为更小、更聚焦的子查询
- 处理阶段:每个子查询独立走完检索管道,从而更精准地匹配到相关文档
查询智能体(Query Agents)
这是最先进的查询增强形式,由AI智能体智能地处理整个查询流程。
查询智能体能够执行的任务包括:
- 动态查询构建:根据对用户意图和数据模式的理解,按需构建查询
- 多集合路由:理解所有数据集合的结构,智能决定查询哪些集合
- 评估:在原始用户查询的上下文中,评估检索到的信息是否真正有用
- 上下文感知:维护对话的上下文信息,以便处理后续的追问
检索:连接知识的核心桥梁
LLM的能力水平,取决于它能访问到的信息质量。虽然模型在海量数据上训练过,但对其训练完成后出现的私有文档和最新信息,却一无所知。
分块策略实用指南
分块(Chunking),是影响检索系统性能最重要的设计决策。这个过程,就是将大文件切割成更小、更易于管理的片段。
设计分块策略时,本质上是在权衡两个相互矛盾的优先级:
- 检索精度(Retrieval Precision):分块要小,聚焦于单一主题,以便生成独特、精确的嵌入向量
- 上下文丰富性(Contextual Richness):分块又必须足够大、足够自包含,让模型拿到后能够理解
基础分块技术
固定大小分块(Fixed-Size Chunking):最简单直接的方法,直接将文本按预定大小(如512个token)进行切割。
递归分块(Recursive Chunking):使用优先级列表(如段落、句子、单词)作为分隔符进行切分,从而尊重文档的自然结构。
基于文档的分块(Document-Based Chunking):直接利用文档自带的固有结构,如Markdown标题、HTML标签或源代码中的函数进行切分。
高级分块技术
语义分块(Semantic Chunking):根据含义对文本进行分割,将语义上相关的句子组合在一起,形成有意义的片段。
基于LLM的分块(LLM-Based Chunking):让LLM自身智能处理文档,生成语义上连贯的分块结果。
智能体分块(Agentic Chunking):AI智能体动态分析文档的结构和内容,针对特定文档选择最优的分块策略。
层次分块(Hierarchical Chunking):在不同细节级别上,创建多层分块结构,满足多样化检索需求。
延迟分块(Late Chunking):与标准流程相反——先嵌入整个文档,再按token粒度关联分块。
预分块与后分块对比
预分块(Pre-Chunking):最常见的方法,所有数据处理在前期离线完成。
- ✅ 优点:查询时检索速度非常快
- ❌ 缺点:分块策略固定,如需更改则需重新处理整个数据集
后分块(Post-Chunking):一种更先进的实时方案,分块发生在文档检索完成之后。
- ✅ 优点:灵活性极高,可根据用户查询的上下文创建动态分块策略
- ❌ 缺点:会增加系统延迟,也需要更复杂的基础设施支持
提示技术:有效引导模型推理
提示工程,就是设计、优化和打磨给LLM的输入,以获得期望输出的实践。提问的方式,直接决定了回复的准确性、实用性和清晰度。
经典提示技术
思维链(Chain of Thought):让模型“逐步思考”,将复杂的推理过程拆解为中间步骤,提升逻辑性。
少样本提示(Few-Shot Prompting):在上下文窗口中提供几个示例,展示你期望的输出风格或“正确答案”的格式。
高级提示策略
思维树(Tree of Thoughts):在思维链基础上更进一步,指示模型并行探索和评估多条推理路径,选择最优方案。
ReAct提示:将思维链与智能体结合,让模型能够动态地进行“推理”和“行动”循环。
工具使用提示
当LLM需要与外部工具交互时,清晰的提示是确保其正确选择和使用工具的关键。
关键要素:
- 清晰定义参数和执行条件
- 提供少样本示例供参考
- 明确说明何时该使用工具
- 详细描述如何使用工具
专业提示:如何写出高质量的工具描述
- 多使用主动动词
- 把输入参数说清楚
- 描述清楚输出结果
- 别忘了提及限制条件
记忆:赋予系统持久记忆能力
在构建智能体时,记忆不只是一个附加功能——它是赋予系统生命力的核心要素。没有记忆,LLM不过是一个强大但无状态的文本处理器。
Andrej Karpathy曾给出一个精妙的类比:将LLM的上下文窗口比作计算机的RAM,将模型本身比作CPU。
记忆架构设计
短期记忆(Short-Term Memory):智能体的即时工作空间,将所有内容塞入上下文窗口,用于推动即时的决策和推理。
长期记忆(Long-Term Memory):突破上下文窗口的限制,将信息存储到外部,在需要时快速检索。
它包括:
- 情景记忆(Episodic Memory):存储特定事件或过去的交互记录
- 语义记忆(Semantic Memory):保存一般性的知识和事实
混合记忆设置(Hybrid Memory Setup):大多数现代系统采用混合路线,结合了短期记忆的速度和长期记忆的深度。
有效记忆管理的关键原则
修剪和精炼记忆:定期扫描长期存储,删除重复条目,合并相关信息,或淘汰过时内容。
有选择地存储:设立过滤标准,在保存前先评估信息的质量和相关性。
根据任务定制架构:不存在放之四海而皆准的记忆方案。从最简单的办法开始,再逐步分层,持续完善。
掌握检索艺术:有效的记忆,不在于能存多少,而在于能否在正确的时间,把正确的信息找出来。
工具:连接外部世界的桥梁
如果说记忆给了智能体一种“自我感”,那么工具就是赋予它“超能力”的钥匙。LLM本身是出色的对话者和文本处理器,但它们活在一个封闭的气泡里。
从提示到行动的演变
真正的突破在于函数调用(Function Calling),也称为工具调用。这种能力已经成为大多数模型的原生功能,它允许LLM输出结构化的JSON数据,其中包含要调用的函数名称和所需的参数。
应用可能性包括:
- 简单工具:例如旅行智能体可以使用
search_flights工具 - 工具链:复杂请求可能需要将多个工具串联起来,如
find_flights、search_hotels再加上get_local_events
编排挑战
给智能体一个工具很容易,但让这个工具被可靠、安全、高效地使用,才是真正的技术难点。
关键编排步骤:
- 工具发现(Tool Discovery):智能体需要先了解自己有哪些工具可用。
- 工具选择与规划(Tool Selection and Planning):面对用户请求时,智能体必须判断是否需要使用工具。
- 参数制定(Argument Formulation):确定使用哪个工具后,智能体还需明确应该传递什么参数。
- 反思(Reflection):工具执行完毕后,输出结果被反馈到上下文窗口,智能体需要反思这个输出,决定下一步行动。
工具调用的下一代技术:MCP
工具使用的演进正变得越来越标准化。Model Context Protocol (MCP) 由 Anthropic 在2024年底推出,它为连接AI应用与外部数据源和工具,提供了一套通用标准。
MCP将传统的M×N集成问题(M个应用,每个都要为N个工具写自定义代码),简化为M+N的问题,大幅降低了集成复杂度。
总结:从提示者到架构师的转变
上下文工程,绝不仅仅是提示大模型、构建检索系统或设计AI架构。它是在构建一个互联的、动态的系统,让AI能够在各种不同的用途和用户面前,都能稳定、可靠地工作。
上下文工程的六大核心组件,构成了这个系统的骨架:
- 智能体——系统的决策大脑,负责协调与调度
- 查询增强——将混乱的人类请求,转化为可操作的精确意图
- 检索——连接模型与事实和知识库的核心桥梁
- 记忆——赋予系统历史感和持续学习能力
- 工具——让应用能够与实时数据和API交互
- 提示技术——引导模型的推理过程,提升输出质量
我们正在完成一个角色转变:从一个跟模型对话的提示者,变成一个为模型构建生活世界的架构师。最好的AI系统,往往不是来自更大的模型,而是来自更优秀的系统工程。
相关攻略
昨天,Google 正式发布了 Gemini 3 1 Pro。表面上看是一次常规迭代,但数据公布后,业内许多人感到惊讶——推理能力几乎翻倍,专业领域表现直逼顶级竞品,价格却保持不变。简单来说,这是一次“加量不加价”的精准打法。 先看几个核心指标:ARC-AGI-2 基准测试得分暴涨 146%,从 3
人工智能不仅是技术名词,更代表一个时代。其核心算法驱动技术发展,市场规模持续扩大,企业应用广泛提升效率。伴随应用深入,数据隐私与算法公平等伦理问题凸显。从图灵测试起,AI概念逐步演化,未来将更趋向多元融合与个性化发展,持续重塑工作与生活。
面向复杂系统的SpecMode正成为AI编程新范式。它强调先撰写结构化功能规范,明确目标、边界与约束,再驱动AI分阶段生成代码。该模式通过前置规划解决起点偏差,以书面文档避免上下文坍塌,并将决策固化以确保过程可控,尤其适用于新系统搭建、大规模重构等高稳定性工程场景。
掌握PPT生成器AI,轻松提升演示效果制作PPT早已不是简单地把文字和图片堆砌在一起。如今的演示文稿,更像是一把能清晰传达想法、生动展示内容的利器。而PPT生成器AI的出现,让专业级的演示文稿变得触手可及——无需苦学设计,无需熬夜排版。下面几个实用技巧,能帮你充分释放它的潜力。方法一:选择合适的模板
篇报告:AI在教育中的应用我记得之前分享过一个观点:AI的到来,正在碘伏我们对教育这件事的传统认知。最明显的改变是什么?个性化学习体验。简单来说,AI系统会像个聪明的观察者,分析每个学生的学习习惯和成绩数据,然后量身定制专属的学习计划。这样一来,学生不再是课堂上被动听讲的听众,而是真正参与到自己学习
热门专题
热门推荐
《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。
2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景
先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非
山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,
近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。





