构建RAG系统时异常停用词对停用词表的影响_AI热点日报

构建RAG系统时异常停用词对停用词表的影响

类型：热点整理2026-07-03

先来解决一个核心问题：停用词表到底是什么？停用词表，英文称为 Stop Words List，简单理解就是一个收集了常见但实际信息价值较低的词汇的清单。在信息检索、文本分类、情感分析等各类自然语言处理任务中，停用词表的使用频率非常高。为什么需要它？因为某些词语虽然频繁出现，但对表达文本核心含义几乎

先来解决一个核心问题：停用词表到底是什么？

停用词表，英文称为 Stop Words List，简单理解就是一个收集了常见但实际信息价值较低的词汇的清单。在信息检索、文本分类、情感分析等各类自然语言处理任务中，停用词表的使用频率非常高。为什么需要它？因为某些词语虽然频繁出现，但对表达文本核心含义几乎没有帮助。例如“的”“在”“和”这类词，如果不加以处理，会让文本数据变得稀疏，并拖慢后续处理效率。因此，提前剔除这些无贡献的停用词，是提升分析效果或模型性能的有效手段。

停用词的范围其实比想象中更广泛。除了常见的标点符号，通常还包含以下几类：

介词：例如“的”“在”“和”“以”。
连词：比如“而且”“但是”“因为”。
助词：像“了”“着”“过”。
语气词：例如“啊”“呢”“吧”。

在一些特殊任务中，甚至部分常见实词也可能被归入停用词表，如“人们”“时间”这类词语。如果它们对分析任务毫无贡献，果断移除即可。

当然，使用停用词表不能一刀切，需要注意以下几个关键点：

领域差异就是一个典型例子。在医学文本中，“患者”属于关键信息，绝对不能删除；但在日常对话文本中，它很可能被当作停用词处理掉。

语言之间的差异更加明显。每种语言都有独特的词汇和语法结构，英文的停用词表无法直接用于中文，反之亦然。

更重要的是，停用词表并非一成不变。它不是官方制定的标准，而是需要根据具体任务和数据集动态调整的。一个良好的实践是：先从一个通用停用词表入手，然后在自己语料上反复测试，判断哪些词真的无效，哪些词实际很关键。

那么，停用词在RAG系统中究竟能发挥什么作用？

在一个典型的RAG系统里，文本预处理阶段移除停用词，可以让文本数据变得更干净、更聚焦。去掉那些“嗯、啊、的、了”之后，剩下的词汇都是真正表达核心含义的，后续的检索和生成环节自然更加精准，效率也更高。目前许多RAG系统的实践已经验证了这一思路的有效性。

最后，对于中文用户来说，好消息是中文社区已经有整理好的常用停用词表，可以直接参考使用，再根据自身业务场景稍作调整，基本就能满足需求。

理解并灵活运用停用词表，并非简单地做减法，而是帮助模型聚焦重点、提升效率。这正是优化RAG系统整体性能的关键一步。

来源：https://www.53ai.com/news/RAG/2025031872310.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

构建RAG系统时异常停用词对停用词表的影响

相关热点

延伸阅读