游乐游手机版
首页/AI教程/文章详情

搭建RAG系统第一步常见的错误

时间:2026-06-26 16:28
搭建RAG系统应优先优化分块策略而非嵌入模型选型。主流嵌入模型性能差距不足3%,而错误分块可导致召回率降低20%。建立评估闭环、采用混合检索(BM25+向量)能显著提升检索质量。数据处理与检索质量决定系统80%效果。

大多工程师构建 RAG 系统时,第一步往往扎进 embedding 模型的选型里。这个次序,其实是本末倒置的。

大多数人搭 RAG,第一步就错了

观察到许多团队在 text-embedding-ada-002bge-m3 之间犹豫不决,进行了多轮基准测试。结果发现系统实际效果欠佳?问题症结其实并非 embedding,而是 chunking。这个现象,颇具代表性。

那个将两周时间耗费在 embedding 选型上的工程师

去年有位朋友负责内部知识库 RAG 项目,产品要求是“用户提问必须都能回应”。他直接把头两周全压在这件事上:

  • 对 OpenAI、Cohere、BGE、Jina 四家 embedding 做了对比测评
  • 搭建了评估脚本,精细计算 top-k 召回率
  • 向量库换了三套:从 Pinecone 到 Qdrant 再到 pgvector

最终 top-3 召回率达到 78%,他自认为已足够。

结果怎样?上线两周后,“答非所问”的用户反馈接连不断。排查日志发现,命中的 chunk 语义虽相关,却来自文档中的孤立段落——由于缺少上下文,模型根本无法输出有价值信息。

问题根源并非 embedding 不准,而是 chunk 切得过碎,上下文被完全割裂。

Embedding 选型:边际收益正持续下滑

这其实是一个经常被忽略的现状:主流 embedding 模型在通用文本任务上的性能差距已经非常有限。

2025 年 MTEB 榜单前十名,top-3 召回率差距普遍低于 3%。然而,一个糟糕的 chunking 策略,就能让这项指标直接暴跌 20%。

换言之,花两周时间做 embedding 选型,可能只有 +3% 的收益;而花两天优化 chunking 策略,却可能带来 +20% 的提升。

并非 embedding 不重要,只是优先级确实搞错了。

真正的三大瓶颈

1. Chunking 策略

固定长度切分是最常见的起步方式,也是最先触及的天花板。

实战中效果更稳定的几种策略:

  • 句子级 + 滑动窗口:保留上下文连贯性,适用于叙述型文档
  • 按语义分段:借助小模型识别段落边界,适合结构化报告
  • 父子 chunk:检索阶段使用小 chunk,提交给 LLM 时附带父 chunk,兼顾精准度与上下文完整性

不存在普适方案。关键是要有评估集来量化不同策略的效果差异,而不是凭感觉盲目更换。

2. 评估闭环

这通常是大多数 RAG 项目中最容易被忽视的环节。

缺乏评估集,无异于用眼睛观测一个黑箱。调整了 chunking 是好是坏?改动了检索策略是否产生回归?你完全无法判断。

一个最小可行的评估闭环:

  1. 从真实用户问题中抽取 50-100 个代表性案例
  2. 由人工标注每个问题的“理想 chunk”(即 ground truth)
  3. 每次改动后运行一次,对比 Recall@3 与 MRR 指标

工具层面,RAGAS 框架能半自动化这一流程,值得尝试。

3. 检索质量:单靠向量检索远远不够

纯向量检索存在一个经典失效场景:精确词匹配。

用户搜索“Claude Sonnet 4.6 的 context window 是多少”,向量检索很可能优先返回语义接近的“Claude 3.5 context window”。这正是问题的关键。

混合检索(BM25 + 向量)在类似场景下表现得更稳定。pgvector 0.7 及以上版本已支持混合检索,实现成本不高,但效果提升显著。

一套值得参考的迭代顺序

  1. 先采用固定 chunking 搭配任一主流 embedding 跑通流程,别在这两步上耗费太久
  2. 建立最小评估集,为自己提供衡量标准
  3. 优化 chunking 策略,借助评估集量化每次调整
  4. 引入混合检索
  5. 根据需求添加 reranker(可选,收益取决于具体场景)
  6. 此时再考虑更换 embedding 模型是否仍有额外价值

RAG 系统达到理想效果,80% 依赖于数据处理与检索质量,仅 20% 取决于模型选择。从这个角度看,优化方向就变得清晰多了。

来源:https://juejin.cn/post/7631595203976298523
上一篇AIGC长时记忆开源项目Zep技术原理解析 下一篇iOS首页进度卡开发:状态边界比渐变条更难
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网