RAG为何如今越来越少被人提及

时间：2026-05-29 20:56

前两年还在被反复强调的RAG（检索增强生成），如今在AI Agent的讨论中，出镜率明显降低了。2024、2025年那会儿，要是学Agent，几乎没人能绕过RAG。教程、课程、视频里开篇必讲向量数据库、Embedding、文档切片和相似度阈值。折腾完Pinecone、Wea viate、Chroma

前两年还在被反复强调的RAG（检索增强生成），如今在AI Agent的讨论中，出镜率明显降低了。2024、2025年那会儿，要是学Agent，几乎没人能绕过RAG。教程、课程、视频里开篇必讲向量数据库、Embedding、文档切片和相似度阈值。折腾完Pinecone、Wea viate、Chroma后，还得踩一堆坑。当时的感觉是：不懂RAG，就不算真的懂Agent。

但最近一年，情况悄悄变了。打开各Agent框架的文档，看看社区里大家在讨论什么，听听播客里在聊什么——RAG的出现频率越来越低了。取而代之的是另一套词汇：Skills、Tools、MCP、Memory、Context Files、Cron、Channels……RAG去哪儿了？它消失了吗？还是说我们的认知需要更新？

拆开来看，背后大致有这几个关键因素。

原因一：Skill + Tool 已经足够用了

最直接的一个原因：对于绝大多数Agent的日常使用场景，Skill和Tool完全够用。

想一想你平时用Agent在做什么？写代码、调试、重构；写文章、做分析报告；查资料、整理信息；发邮件、管日历。这些场景，一个 web_search tool、一个 run_code tool、一个 read_file tool，基本上全搞定了。更重要的是，Skill和Tool的传播成本极低。一个skill文件，就是一段文字描述，告诉Agent怎么做某件事。你通过GitHub分享，别人下载下来就能用，几乎零配置。Claude Code、OpenClaw这类产品，社区里有人做好了各种skill，直接拿来用就行。效果直接，用起来直觉，出了问题也容易排查。这种简单、易传播、效果好的特性，让skill/tool迅速成为Agent生态的主流选择。

原因二：RAG 的成本真的不低

RAG听起来很美，但真正用起来，成本比想象中高很多——不只是钱，还有时间和精力。

搭建成本： 你需要选一个向量数据库（Pinecone？Wea viate？Qdrant？），注册账号，搞明白它的API，写数据导入的逻辑，处理文档切片（chunk size多少？overlap多少？），跑Embedding模型把文本向量化……光是把这套流程跑通，没有一两天搞不定。

费用成本： 主流向量数据库几乎都不免费。Embedding模型调用要花token费用，存储要花钱，查询要花钱。对个人开发者或小项目来说，这些费用加起来并不便宜。

维护成本： 数据不是一次性的。文档更新了怎么办？要重新Embedding，要更新向量库，要处理增量同步……这套维护逻辑，比代码本身还麻烦。

相比之下，一个tool就是一次API调用，很多还是免费的（搜网页、读本地文件）。对于个人开发者，这笔账很好算：能用tool解决的，为什么要搭一套RAG pipeline？

原因三：LLM 自身能力在不断填平 RAG 的价值

这是最根本的原因，也是最容易被忽视的一个。RAG的核心能力是什么？语义搜索——从大量文本里，找出跟当前问题最相关的内容。但问题是：LLM天生就支持语义理解，而且理解能力已经比早期的Embedding模型强太多了。

RAG出现的时候，LLM有两个硬伤：

Context Window太小，4K token根本装不下多少内容，必须先筛选再喂给模型。
理解能力有限，需要专门训练的Embedding模型来做向量相似度计算。

所以RAG的逻辑是：先用向量搜索把候选内容缩小到几条，再把这几条喂给LLM。

但现在，这两个短板都在快速消失：Context Window从4K涨到了128K，再到200K+，很多内容根本不需要预筛选，直接全塞进去就行。LLM的语义理解能力远超当年，让它自己在一大堆内容里找答案，反而更准。

举一个具体例子：Tool选择问题。早期Agent如果有几百个tool，context装不下，就得用RAG：先把问题向量化，检索出最相关的几个tool，再交给LLM选择。现在呢？直接把所有tool的描述全部发给LLM，让它自己判断用哪个。多花了一点token，但省掉了整套向量检索的基础设施。多花一点LLM token的费用，远比维护一套RAG服务的费用和复杂度要低得多。

这种替代正在悄悄发生在很多场景里。LLM越来越强，它能直接"内化"的事情越来越多，中间那层"预处理"的必要性就越来越低。

原因四：张雪峰.skill 给我的启发

前段时间，考研指导领域的知名博主张雪峰不幸离世，年仅41岁，令人惋惜。他做了十几年的考研、志愿填报指导，粉丝数千万，内容跨越无数场直播、课程、视频。按理说，这么多年积累的"知识量"应该是海量的。但有意思的是，有人在他去世后，把他生前的核心语录和方法论，整理成了一个 张雪峰.skill（GitHub上可以找到），让Agent用他的风格和逻辑回答升学问题。一个skill文件，就装下了他十几年的精华。

这件事让人重新思考：我们普通人积累的"专业知识"，到底有多少？答案可能是：没有我们想象中那么多。绝大多数人的"专业知识"，本质上是一套判断框架（遇到这种情况，应该怎么分析）、一些经验规则（这个专业就业不好，那个城市机会更多）、一种表达风格（接地气、直白、不绕弯子）。这些东西，高度结构化，完全可以被一个skill的system prompt压缩表达。

真正需要RAG的，是那种无法被规则化的细粒度数据——比如企业里每一条客户记录、每一份合同原文、每一个历史订单的具体信息。张雪峰的知识属于前者，所以一个skill就够了。这个例子，把RAG和skill的边界说得很清楚。

原因五：现在的 Agent 产品几乎全是 toC 的

把上面所有原因加在一起，还有一个更宏观的视角：当前Agent生态，主角是toC产品。Claude Code、OpenClaw、Cursor、Devin……这些让社区兴奋的明星产品，针对的都是个人用户。

个人用户的特点是什么？数据量不大——你的代码库、你的笔记、你的文档，说到底就那么多，完全不需要向量数据库来管理；成本敏感——个人用户不愿意为了一个功能额外付费订阅第三方服务；追求开箱即用——下载安装，马上能用，才会被推荐传播。

这三点加在一起，直接决定了：toC的Agent产品，天然排斥RAG，天然偏向skill/tool。以OpenClaw为例，它内部没有RAG，也没有向量数据库，照样能正常运行完整的memory、tools、skills机制。靠的就是LLM自身的强大能力，加上精心设计的skill体系。

反观toB的场景：企业有海量的私有数据，有精确检索的需求，有合规审计的要求，成本相对不敏感……这些特征，全部指向RAG。但问题是：目前还没有出现一个现象级的toB Agent明星产品。Salesforce Agentforce、ServiceNow的AI Agent在做，一些垂直领域（法律、医疗、金融）也有探索，但都还没有"出圈"——没有达到Claude Code那种让整个开发者社区都在讨论的程度。

这不是偶然的。toB的Agent落地有更高的壁垒：企业数据敏感，不能随便上云，私有化部署的模型能力又差一截；接入企业已有系统（ERP、CRM、几十年的遗留系统）成本极高；决策链条长，IT、法务、采购都要过，推进慢；出错代价高——Agent搞错了一条生产数据，比开发者看到一段错误代码严重得多。所以toB Agent还在蓄力，还没到爆发的时候。

总结：RAG 没有消失，只是在等待自己的主场

把所有原因梳理在一起：

原因	对 RAG 的影响
Skill/Tool 足够用	大多数场景不需要 RAG
RAG 成本高	toC 用户主动回避
LLM 能力增强	语义搜索可以被模型内化
Context Window 变大	不再需要预筛选
Agent 以 toC 为主	个人数据量小，RAG 无用武之地

五个力量同时在压缩RAG的生存空间。但RAG并没有消失，它只是从"前台明星技术"退到了"后台等待区"。就像HTTP协议，你不会每次聊起Web开发都专门提它，但它一直在那里。很多云厂商的AI服务已经把RAG封装好了，开发者不需要手搓，自然就少被专门讨论。

更重要的是，当toB Agent真正爆发的那一天，RAG很可能重回大众视野。企业场景天然就是：海量私有数据、精确检索、权限隔离、合规审计。这些全是RAG的主场。

所以，正确的理解不是"RAG死了"，而是：技术没有好坏，只有适不适合当下的场景。RAG现在的沉寂，只是在等一个更大的舞台。

来源：https://juejin.cn/post/7631495035477983242

其他

上一篇一文读懂Skills核心概念与原理及其在Agent开发中的用法 下一篇五分钟带你从零认识并手动创建Skill完整指南

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。