前两年还在被反复强调的RAG(检索增强生成),如今在AI Agent的讨论中,出镜率明显降低了。2024、2025年那会儿,要是学Agent,几乎没人能绕过RAG。教程、课程、视频里开篇必讲向量数据库、Embedding、文档切片和相似度阈值。折腾完Pinecone、Wea viate、Chroma后,还得踩一堆坑。当时的感觉是:不懂RAG,就不算真的懂Agent。
但最近一年,情况悄悄变了。打开各Agent框架的文档,看看社区里大家在讨论什么,听听播客里在聊什么——RAG的出现频率越来越低了。取而代之的是另一套词汇:Skills、Tools、MCP、Memory、Context Files、Cron、Channels……RAG去哪儿了?它消失了吗?还是说我们的认知需要更新?
拆开来看,背后大致有这几个关键因素。
原因一:Skill + Tool 已经足够用了
最直接的一个原因:对于绝大多数Agent的日常使用场景,Skill和Tool完全够用。
想一想你平时用Agent在做什么?写代码、调试、重构;写文章、做分析报告;查资料、整理信息;发邮件、管日历。这些场景,一个 web_search tool、一个 run_code tool、一个 read_file tool,基本上全搞定了。更重要的是,Skill和Tool的传播成本极低。一个skill文件,就是一段文字描述,告诉Agent怎么做某件事。你通过GitHub分享,别人下载下来就能用,几乎零配置。Claude Code、OpenClaw这类产品,社区里有人做好了各种skill,直接拿来用就行。效果直接,用起来直觉,出了问题也容易排查。这种简单、易传播、效果好的特性,让skill/tool迅速成为Agent生态的主流选择。
原因二:RAG 的成本真的不低
RAG听起来很美,但真正用起来,成本比想象中高很多——不只是钱,还有时间和精力。
搭建成本: 你需要选一个向量数据库(Pinecone?Wea viate?Qdrant?),注册账号,搞明白它的API,写数据导入的逻辑,处理文档切片(chunk size多少?overlap多少?),跑Embedding模型把文本向量化……光是把这套流程跑通,没有一两天搞不定。
费用成本: 主流向量数据库几乎都不免费。Embedding模型调用要花token费用,存储要花钱,查询要花钱。对个人开发者或小项目来说,这些费用加起来并不便宜。
维护成本: 数据不是一次性的。文档更新了怎么办?要重新Embedding,要更新向量库,要处理增量同步……这套维护逻辑,比代码本身还麻烦。
相比之下,一个tool就是一次API调用,很多还是免费的(搜网页、读本地文件)。对于个人开发者,这笔账很好算:能用tool解决的,为什么要搭一套RAG pipeline?
原因三:LLM 自身能力在不断填平 RAG 的价值
这是最根本的原因,也是最容易被忽视的一个。RAG的核心能力是什么?语义搜索——从大量文本里,找出跟当前问题最相关的内容。但问题是:LLM天生就支持语义理解,而且理解能力已经比早期的Embedding模型强太多了。
RAG出现的时候,LLM有两个硬伤:
- Context Window太小,4K token根本装不下多少内容,必须先筛选再喂给模型。
- 理解能力有限,需要专门训练的Embedding模型来做向量相似度计算。
所以RAG的逻辑是:先用向量搜索把候选内容缩小到几条,再把这几条喂给LLM。
但现在,这两个短板都在快速消失:Context Window从4K涨到了128K,再到200K+,很多内容根本不需要预筛选,直接全塞进去就行。LLM的语义理解能力远超当年,让它自己在一大堆内容里找答案,反而更准。
举一个具体例子:Tool选择问题。早期Agent如果有几百个tool,context装不下,就得用RAG:先把问题向量化,检索出最相关的几个tool,再交给LLM选择。现在呢?直接把所有tool的描述全部发给LLM,让它自己判断用哪个。多花了一点token,但省掉了整套向量检索的基础设施。多花一点LLM token的费用,远比维护一套RAG服务的费用和复杂度要低得多。
这种替代正在悄悄发生在很多场景里。LLM越来越强,它能直接"内化"的事情越来越多,中间那层"预处理"的必要性就越来越低。
原因四:张雪峰.skill 给我的启发
前段时间,考研指导领域的知名博主张雪峰不幸离世,年仅41岁,令人惋惜。他做了十几年的考研、志愿填报指导,粉丝数千万,内容跨越无数场直播、课程、视频。按理说,这么多年积累的"知识量"应该是海量的。但有意思的是,有人在他去世后,把他生前的核心语录和方法论,整理成了一个 张雪峰.skill(GitHub上可以找到),让Agent用他的风格和逻辑回答升学问题。一个skill文件,就装下了他十几年的精华。
这件事让人重新思考:我们普通人积累的"专业知识",到底有多少?答案可能是:没有我们想象中那么多。绝大多数人的"专业知识",本质上是一套判断框架(遇到这种情况,应该怎么分析)、一些经验规则(这个专业就业不好,那个城市机会更多)、一种表达风格(接地气、直白、不绕弯子)。这些东西,高度结构化,完全可以被一个skill的system prompt压缩表达。
真正需要RAG的,是那种无法被规则化的细粒度数据——比如企业里每一条客户记录、每一份合同原文、每一个历史订单的具体信息。张雪峰的知识属于前者,所以一个skill就够了。这个例子,把RAG和skill的边界说得很清楚。
原因五:现在的 Agent 产品几乎全是 toC 的
把上面所有原因加在一起,还有一个更宏观的视角:当前Agent生态,主角是toC产品。Claude Code、OpenClaw、Cursor、Devin……这些让社区兴奋的明星产品,针对的都是个人用户。
个人用户的特点是什么?数据量不大——你的代码库、你的笔记、你的文档,说到底就那么多,完全不需要向量数据库来管理;成本敏感——个人用户不愿意为了一个功能额外付费订阅第三方服务;追求开箱即用——下载安装,马上能用,才会被推荐传播。
这三点加在一起,直接决定了:toC的Agent产品,天然排斥RAG,天然偏向skill/tool。以OpenClaw为例,它内部没有RAG,也没有向量数据库,照样能正常运行完整的memory、tools、skills机制。靠的就是LLM自身的强大能力,加上精心设计的skill体系。
反观toB的场景:企业有海量的私有数据,有精确检索的需求,有合规审计的要求,成本相对不敏感……这些特征,全部指向RAG。但问题是:目前还没有出现一个现象级的toB Agent明星产品。Salesforce Agentforce、ServiceNow的AI Agent在做,一些垂直领域(法律、医疗、金融)也有探索,但都还没有"出圈"——没有达到Claude Code那种让整个开发者社区都在讨论的程度。
这不是偶然的。toB的Agent落地有更高的壁垒:企业数据敏感,不能随便上云,私有化部署的模型能力又差一截;接入企业已有系统(ERP、CRM、几十年的遗留系统)成本极高;决策链条长,IT、法务、采购都要过,推进慢;出错代价高——Agent搞错了一条生产数据,比开发者看到一段错误代码严重得多。所以toB Agent还在蓄力,还没到爆发的时候。
总结:RAG 没有消失,只是在等待自己的主场
把所有原因梳理在一起:
| 原因 | 对 RAG 的影响 |
|---|---|
| Skill/Tool 足够用 | 大多数场景不需要 RAG |
| RAG 成本高 | toC 用户主动回避 |
| LLM 能力增强 | 语义搜索可以被模型内化 |
| Context Window 变大 | 不再需要预筛选 |
| Agent 以 toC 为主 | 个人数据量小,RAG 无用武之地 |
五个力量同时在压缩RAG的生存空间。但RAG并没有消失,它只是从"前台明星技术"退到了"后台等待区"。就像HTTP协议,你不会每次聊起Web开发都专门提它,但它一直在那里。很多云厂商的AI服务已经把RAG封装好了,开发者不需要手搓,自然就少被专门讨论。
更重要的是,当toB Agent真正爆发的那一天,RAG很可能重回大众视野。企业场景天然就是:海量私有数据、精确检索、权限隔离、合规审计。这些全是RAG的主场。
所以,正确的理解不是"RAG死了",而是:技术没有好坏,只有适不适合当下的场景。RAG现在的沉寂,只是在等一个更大的舞台。
