搭建RAG系统第一步常见的错误

首页/AI教程/文章详情

搭建RAG系统第一步常见的错误

时间：2026-06-26 16:28

搭建RAG系统应优先优化分块策略而非嵌入模型选型。主流嵌入模型性能差距不足3%，而错误分块可导致召回率降低20%。建立评估闭环、采用混合检索（BM25+向量）能显著提升检索质量。数据处理与检索质量决定系统80%效果。

大多工程师构建 RAG 系统时，第一步往往扎进 embedding 模型的选型里。这个次序，其实是本末倒置的。

大多数人搭 RAG，第一步就错了

观察到许多团队在 text-embedding-ada-002 与 bge-m3 之间犹豫不决，进行了多轮基准测试。结果发现系统实际效果欠佳？问题症结其实并非 embedding，而是 chunking。这个现象，颇具代表性。

那个将两周时间耗费在 embedding 选型上的工程师

去年有位朋友负责内部知识库 RAG 项目，产品要求是“用户提问必须都能回应”。他直接把头两周全压在这件事上：

对 OpenAI、Cohere、BGE、Jina 四家 embedding 做了对比测评
搭建了评估脚本，精细计算 top-k 召回率
向量库换了三套：从 Pinecone 到 Qdrant 再到 pgvector

最终 top-3 召回率达到 78%，他自认为已足够。

结果怎样？上线两周后，“答非所问”的用户反馈接连不断。排查日志发现，命中的 chunk 语义虽相关，却来自文档中的孤立段落——由于缺少上下文，模型根本无法输出有价值信息。

问题根源并非 embedding 不准，而是 chunk 切得过碎，上下文被完全割裂。

Embedding 选型：边际收益正持续下滑

这其实是一个经常被忽略的现状：主流 embedding 模型在通用文本任务上的性能差距已经非常有限。

2025 年 MTEB 榜单前十名，top-3 召回率差距普遍低于 3%。然而，一个糟糕的 chunking 策略，就能让这项指标直接暴跌 20%。

换言之，花两周时间做 embedding 选型，可能只有 +3% 的收益；而花两天优化 chunking 策略，却可能带来 +20% 的提升。

并非 embedding 不重要，只是优先级确实搞错了。

真正的三大瓶颈

1. Chunking 策略

固定长度切分是最常见的起步方式，也是最先触及的天花板。

实战中效果更稳定的几种策略：

句子级 + 滑动窗口：保留上下文连贯性，适用于叙述型文档
按语义分段：借助小模型识别段落边界，适合结构化报告
父子 chunk：检索阶段使用小 chunk，提交给 LLM 时附带父 chunk，兼顾精准度与上下文完整性

不存在普适方案。关键是要有评估集来量化不同策略的效果差异，而不是凭感觉盲目更换。

2. 评估闭环

这通常是大多数 RAG 项目中最容易被忽视的环节。

缺乏评估集，无异于用眼睛观测一个黑箱。调整了 chunking 是好是坏？改动了检索策略是否产生回归？你完全无法判断。

一个最小可行的评估闭环：

从真实用户问题中抽取 50-100 个代表性案例
由人工标注每个问题的“理想 chunk”（即 ground truth）
每次改动后运行一次，对比 Recall@3 与 MRR 指标

工具层面，RAGAS 框架能半自动化这一流程，值得尝试。

3. 检索质量：单靠向量检索远远不够

纯向量检索存在一个经典失效场景：精确词匹配。

用户搜索“Claude Sonnet 4.6 的 context window 是多少”，向量检索很可能优先返回语义接近的“Claude 3.5 context window”。这正是问题的关键。

混合检索（BM25 + 向量）在类似场景下表现得更稳定。pgvector 0.7 及以上版本已支持混合检索，实现成本不高，但效果提升显著。

一套值得参考的迭代顺序

先采用固定 chunking 搭配任一主流 embedding 跑通流程，别在这两步上耗费太久
建立最小评估集，为自己提供衡量标准
优化 chunking 策略，借助评估集量化每次调整
引入混合检索
根据需求添加 reranker（可选，收益取决于具体场景）
此时再考虑更换 embedding 模型是否仍有额外价值

RAG 系统达到理想效果，80% 依赖于数据处理与检索质量，仅 20% 取决于模型选择。从这个角度看，优化方向就变得清晰多了。

来源：https://juejin.cn/post/7631595203976298523

大多数

上一篇AIGC长时记忆开源项目Zep技术原理解析 下一篇iOS首页进度卡开发：状态边界比渐变条更难

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网