教大语言模型RAG何时检索与有效利用技巧_AI热点日报

教大语言模型RAG何时检索与有效利用技巧

类型：热点整理2026-05-31

ADAPT-LLM使大语言模型学会主动判断何时需要信息检索：若已知则直接回答，未知则生成⟨RET⟩标签触发检索。基于模型零样本回答对错构建训练数据，在PopQA测试中准确率优于永不检索与始终检索基线，与基于流行度阈值方法相当但泛化更强。检索系统质量仍是性能瓶颈。

这篇论文的核心贡献在于提出了ADAPT-LLM——一个能够“审时度势”的大语言模型。它不再依赖参数记忆来硬解所有问题，而是学会了主动判断：面对一个问题，模型是否已有答案？如果没有，便不再勉为其难，而是立即转向参考资料（即执行信息检索，IR）。

首先需要说明一下背景。在问答（QA）领域，大语言模型的表现越来越亮眼，尤其在自然问题（NQ）和SQuAD等经典数据集上，成绩持续攀升。然而，业界使用大模型做问答通常只有两条路径：要么采用“闭卷考试”模式，仅依靠模型内部存储的知识；要么采用“开卷考试”模式，为模型配备检索系统，需要素材时便主动查询。

一条路走到底未必是最优解。此前有研究团队利用PopQA数据集进行测试，发现大模型对“热门”问题采用闭卷考效果尚可，但一旦问题变得冷门，就必须借助检索系统来“救场”。他们的思路是设定一个热度阈值：超过该阈值就不检索，低于该阈值则检索。这一方法虽然有效，但问题在于很多数据集并不提供“热度分”，难以推广。

ADAPT-LLM 旨在解决这种“一刀切”的尴尬局面。它不依赖任何外部评分，而是让模型自己学会判断。具体怎么做呢？其推理流程相当简洁：当一个问题被抛出，模型先“过一遍脑子”，如果确定能解决，就直接给出答案；如果心里没底，它就会生成一个特殊标签——⟨RET⟩，表示“需要查阅资料”。系统收到这个信号后，立即调用检索工具（例如Contriever），将最相关的段落捞取回来，连同问题一起输入模型，最终得出答案。

要让模型学会这种判断，关键在于训练数据的构建。以PopQA为基准，研究者使用了NQ和SQuAD这两个经典数据集作为训练原料。他们先让基础版Llama-2模型进行零样本回答所有问题，观察哪些能答对，哪些答错。

如果答对了，就认为模型“知道”这个答案，训练时指示它直接做出回答。
如果答错了，说明模型“不知道”，此时需要构造两类训练样本：一类是让它主动生成⟨RET⟩标签，表示需要检索；另一类是让它结合检索到的上下文来学习回答。

这样一来，ADAPT-LLM 从根本上就分清了“我知道”和“我不知道”两种状态。随后在PopQA上的测试也证实了这一点——那些模型选择“不检索”即回答的问题，准确率高达62%以上，远高于那些强行作答的基准模型。

为了验证这套自适应检索（ADAPT-LLM）的效果，研究者设置了两个对照组：一个叫“永不检索（NR-LLM）”，所有问题都自己扛，绝不使用外部资料；一个叫“始终检索（AR-LLM）”，每个问题都先去查询。在Llama-2 7B的底座上，三个模型均采用相同参数（Alpaca-LoRa配置）在NQ和SQuAD上进行微调，随后在PopQA上真刀真枪地对比。

结果非常说明问题。在NQ和SQuAD两个训练集上，ADAPT-LLM 的准确率均超过了两个对照组。尤其是在SQuAD上训练后，ADAPT-LLM 达到了38.15%，远高于AR-LLM的36.59%。至于NR-LLM，因为过于“硬莽”，表现最差。这也再次印证了一个道理：大模型的知识储备并非万能。

一个有趣的发现是，ADAPT-LLM 在PopQA上大约有82%-83%的问题都申请了“检索支援”，比例相当高。对照NR-LLM那惨淡的准确率（不到15%），说明大多数问题确实需要外部信息。但更关键的是，ADAPT-LLM 在这些“申请检索”的问题上，准确率能直接翻倍，从十来个百分点提升到33%以上。这表明它的判断并非随意猜测，而是真实有效的。

当然，这里也暴露了一个潜在瓶颈——检索系统本身还不够完美。实验中一个细节值得注意：如果使用数据集自带的“黄金段落”来回问题，效果非常好；但一旦换成Contriever这个检索工具，性能就大幅下降（在SQuAD上甚至掉了67个百分点）。这说明当前的信息检索系统捞回来的段落未必是最有用的。换句话说，ADAPT-LLM 虽然知道“该查资料了”，但查回来的资料质量拖了后腿。如果能像一些成熟的开放域QA系统那样，检索多个段落并进行综合分析，效果应该还能再上一个台阶。

最后，研究者将ADAPT-LLM 与主流方法（基于流行度阈值的方法）进行了正面交锋。那个方法需要在PopQA上抽取75%的数据来调试出一个最优阈值，相当于“开卷考”。而ADAPT-LLM 训练时完全没有使用PopQA的数据，属于“闭卷考”。即便如此，在相同的测试集上，两者的表现旗鼓相当。这一点极具说服力——ADAPT-LLM 的泛化能力更强，它学到的是“判断逻辑”，而非死记硬背某个数据集的“评分偏好”。

总的来说，ADAPT-LLM 为大语言模型指明了一条务实的道路：与其硬撑着当百科全书，不如学会聪明地求助。这或许就是未来大模型与检索系统深度融合的雏形。

论文链接：https://arxiv.org/pdf/2404.19705
论文标题：When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

来源：https://www.53ai.com/news/qianyanjishu/2381.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

教大语言模型RAG何时检索与有效利用技巧

相关热点

延伸阅读