这篇论文的核心贡献在于提出了ADAPT-LLM——一个能够“审时度势”的大语言模型。它不再依赖参数记忆来硬解所有问题,而是学会了主动判断:面对一个问题,模型是否已有答案?如果没有,便不再勉为其难,而是立即转向参考资料(即执行信息检索,IR)。
首先需要说明一下背景。在问答(QA)领域,大语言模型的表现越来越亮眼,尤其在自然问题(NQ)和SQuAD等经典数据集上,成绩持续攀升。然而,业界使用大模型做问答通常只有两条路径:要么采用“闭卷考试”模式,仅依靠模型内部存储的知识;要么采用“开卷考试”模式,为模型配备检索系统,需要素材时便主动查询。
一条路走到底未必是最优解。此前有研究团队利用PopQA数据集进行测试,发现大模型对“热门”问题采用闭卷考效果尚可,但一旦问题变得冷门,就必须借助检索系统来“救场”。他们的思路是设定一个热度阈值:超过该阈值就不检索,低于该阈值则检索。这一方法虽然有效,但问题在于很多数据集并不提供“热度分”,难以推广。
ADAPT-LLM 旨在解决这种“一刀切”的尴尬局面。它不依赖任何外部评分,而是让模型自己学会判断。具体怎么做呢?其推理流程相当简洁:当一个问题被抛出,模型先“过一遍脑子”,如果确定能解决,就直接给出答案;如果心里没底,它就会生成一个特殊标签——⟨RET⟩,表示“需要查阅资料”。系统收到这个信号后,立即调用检索工具(例如Contriever),将最相关的段落捞取回来,连同问题一起输入模型,最终得出答案。
要让模型学会这种判断,关键在于训练数据的构建。以PopQA为基准,研究者使用了NQ和SQuAD这两个经典数据集作为训练原料。他们先让基础版Llama-2模型进行零样本回答所有问题,观察哪些能答对,哪些答错。
- 如果答对了,就认为模型“知道”这个答案,训练时指示它直接做出回答。
- 如果答错了,说明模型“不知道”,此时需要构造两类训练样本:一类是让它主动生成
⟨RET⟩标签,表示需要检索;另一类是让它结合检索到的上下文来学习回答。
这样一来,ADAPT-LLM 从根本上就分清了“我知道”和“我不知道”两种状态。随后在PopQA上的测试也证实了这一点——那些模型选择“不检索”即回答的问题,准确率高达62%以上,远高于那些强行作答的基准模型。
为了验证这套自适应检索(ADAPT-LLM)的效果,研究者设置了两个对照组:一个叫“永不检索(NR-LLM)”,所有问题都自己扛,绝不使用外部资料;一个叫“始终检索(AR-LLM)”,每个问题都先去查询。在Llama-2 7B的底座上,三个模型均采用相同参数(Alpaca-LoRa配置)在NQ和SQuAD上进行微调,随后在PopQA上真刀真枪地对比。
结果非常说明问题。在NQ和SQuAD两个训练集上,ADAPT-LLM 的准确率均超过了两个对照组。尤其是在SQuAD上训练后,ADAPT-LLM 达到了38.15%,远高于AR-LLM的36.59%。至于NR-LLM,因为过于“硬莽”,表现最差。这也再次印证了一个道理:大模型的知识储备并非万能。
一个有趣的发现是,ADAPT-LLM 在PopQA上大约有82%-83%的问题都申请了“检索支援”,比例相当高。对照NR-LLM那惨淡的准确率(不到15%),说明大多数问题确实需要外部信息。但更关键的是,ADAPT-LLM 在这些“申请检索”的问题上,准确率能直接翻倍,从十来个百分点提升到33%以上。这表明它的判断并非随意猜测,而是真实有效的。
当然,这里也暴露了一个潜在瓶颈——检索系统本身还不够完美。实验中一个细节值得注意:如果使用数据集自带的“黄金段落”来回问题,效果非常好;但一旦换成Contriever这个检索工具,性能就大幅下降(在SQuAD上甚至掉了67个百分点)。这说明当前的信息检索系统捞回来的段落未必是最有用的。换句话说,ADAPT-LLM 虽然知道“该查资料了”,但查回来的资料质量拖了后腿。如果能像一些成熟的开放域QA系统那样,检索多个段落并进行综合分析,效果应该还能再上一个台阶。
最后,研究者将ADAPT-LLM 与主流方法(基于流行度阈值的方法)进行了正面交锋。那个方法需要在PopQA上抽取75%的数据来调试出一个最优阈值,相当于“开卷考”。而ADAPT-LLM 训练时完全没有使用PopQA的数据,属于“闭卷考”。即便如此,在相同的测试集上,两者的表现旗鼓相当。这一点极具说服力——ADAPT-LLM 的泛化能力更强,它学到的是“判断逻辑”,而非死记硬背某个数据集的“评分偏好”。
总的来说,ADAPT-LLM 为大语言模型指明了一条务实的道路:与其硬撑着当百科全书,不如学会聪明地求助。这或许就是未来大模型与检索系统深度融合的雏形。
论文链接:https://arxiv.org/pdf/2404.19705
论文标题:When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively
