游乐游手机版
首页/AI热点日报/热点详情

DeepRAG智能检索MDP精准消除事实幻觉准确率提升22%

类型:热点整理2026-07-01
DeepRAG将检索增强推理建模为马尔可夫决策过程,动态决定每一步是否检索外部知识。通过二叉树搜索和模仿学习优化推理路径,并借助校准链提升知识边界感知。实验表明,该方法在五个数据集上将回答准确率提升21 99%,同时显著降低检索成本。

大型语言模型在执行推理任务时,常常遭遇事实性幻觉,尤其是在面对时间敏感或多跳推理场景时表现尤为突出。单纯依赖参数化知识,覆盖面有限;而将全部期望寄托于检索增强生成(RAG),又往往面临任务分解不充分、检索冗余等问题,反而引入噪声,拖累回答质量。如何破解?DeepRAG 提供了一种颇具启发性的思路——将检索增强型推理建模为动态决策的马尔可夫过程。

DeepRAG:智能检索+MDP,精准秒杀事实幻觉,准确率飙升21.99%!

本文提出 DeepRAG,一个将检索增强型推理形式化为马尔可夫决策过程(MDP)的框架。它通过迭代分解查询,动态决定每一步是检索外部知识,还是依赖参数化推理。实验表明,DeepRAG 在提升检索效率的同时,将回答准确性提高了 21.99%,充分证明了其在优化检索增强型推理方面的有效性。

DeepRAG 核心方法

DeepRAG 的核心设计十分简洁:不再机械地“先检索再回答”,而是将整个推理过程拆解为策略性的决策链条。具体来说,它完成了以下几项关键工作:

马尔可夫决策过程建模

首先,它将问题分解、原子决策和最终答案生成这一整套流程,形式化定义为一个 MDP,包含状态、动作、转移概率与奖励函数。每个状态对应问题的一个部分解,动作则在“直接回答”和“检索外部知识”之间做出选择。这样一来,检索便转化成了一个可优化、可学习的策略问题。

二叉树搜索

为了找到最优推理路径,DeepRAG 实现了一种巧妙的二叉树搜索方法。对于每个子查询,模型并非武断地决定是否检索,而是同时探索两种策略:直接利用参数知识作答,或检索外部文档后再作答。通过这种“两条腿走路”的探索方式,它能够评估不同选择对最终答案的影响,从而筛选出成本最低、效果最佳的路径。

模仿学习

有了二叉树搜索出的高质量路径,接下来便进入模仿学习阶段。核心算法维护一个优先队列,按检索成本排序所有可能的推理轨迹,优先处理成本更低的路径。它不断从队列中取出最优轨迹,生成下一个子查询,并根据情况决定是直接回答还是继续检索。

校准链

为了让模型更清楚地认识自身的“知识边界”,DeepRAG 引入了校准链。通过合成偏好数据,训练模型判断何时应该检索、何时应当信任内部知识。该过程包含一个巧妙的损失函数,用于调节模型偏离基线策略的惩罚力度,从而学会在“直接回答”与“检索回答”之间做出最合理的权衡。

实验设计

实验部分选用了五个开放域问答数据集,其中 HotpotQA 和 2WikiMultihopQA 用于训练,测试集涵盖 HotpotQA、2WikiMultihopQA、CAG、PopQA 和 WebQuestions。为公平对比,选取了 CoT、IterDRAG、FLARE、AutoRAG 等十种主流方法作为基线。在实现细节上,采用 BM25 作为检索模型,知识库为维基百科片段;基础模型则选择了 Llama-3-8B-Instruct 和 Qwen-2.5-7B。

结果与分析

从结果来看,DeepRAG 在所有测试场景中均超越了现有方法。与最先进的基线相比,它在各个数据集上表现出稳定提升,这绝非偶然。

在检索效率方面,DeepRAG 在保持高准确率的同时,大幅降低了检索成本。相比之下,纯粹的置信度方法在不同数据集上表现极不稳定,而迭代检索方法往往需要大量检索操作,效率堪忧。

针对“是否需要检索”的判断,DeepRAG 的 F1、平衡准确率和 MCC 指标均十分亮眼,说明它精准识别了检索的必要性。反观 FLARE、DRAGIN 等方法,虽然回答准确率不低,但在避免无谓检索方面表现欠佳。

一个有意思的发现是:完全依赖内部知识效果最差,而完全依赖外部知识虽然准确率高,但检索成本巨大。DeepRAG 通过自适应地选择内部与外部知识源,表现优于任何单一策略。

从问题分解的角度看,大多数问题需要 3 到 5 步分解,而检索尝试主要集中在 0 到 2 轮。这表明 DeepRAG 能够有效拆解问题,同时将冗余检索降到最低。

消融研究进一步证实了每个模块的价值。模仿学习阶段(DeepRAG-Imi)虽然在时间敏感的 CAG 数据集上稍弱,但平均性能更优。而校准链阶段,则在保持低检索成本的前提下,提升了整体回答质量。

DeepRAG 与现有 RAG 的区别

比完效果,更值得关注的是它究竟“新”在哪里:

  • 动态与策略性检索:不再机械地遇到问题就检索,而是通过 MDP 将检索建模为动态决策过程,每一步均有策略地判断是否需要。这是根本性的思路转变。
  • 二叉树搜索:向前探索多种策略路径,而非一条路走到黑。这使得模型能够从“事后”视角评估不同检索选择对最终答案的影响。
  • 知识边界校准:通过校准链,让模型更清晰地感知自身知识边界。它不依赖外部不确定性度量,而是通过合成数据与偏好数据训练,让模型自主学习“何时该查资料”。
  • 减少冗余检索:由于判断更精准,不必要的检索自然大幅减少,既提升了效率,也降低了引入噪声的风险。
  • 端到端训练:整个框架采用端到端训练,不依赖额外参数或不可靠的不确定性指标,完全利用 LLM 自身的生成能力来探索知识边界。
  • 多步推理:通过不断分解与决策,天然支持多步推理。这对于处理复杂、需要多跳思考的问题至关重要。

这些特征结合在一起,使得 DeepRAG 在处理需要多步推理和时间敏感的问答任务时,表现尤为出色。

总结

总体而言,DeepRAG 通过自校准方式,显著提升了 LLM 对检索需求的感知能力。它将查询拆解为子查询,利用二叉树搜索合成高质量数据,帮助模型理解自身知识边界。实验结果十分明确:在准确性和效率上均实现了显著提升。可以说,它为检索增强生成提供了一种强有力的新框架。

不足与反思

当然,没有完美的框架。DeepRAG 在大多数场景下表现优异,但在时间敏感的 CAG 数据集上,相比某些自适应检索方法仍有差距。这也指明了未来方向:如何在处理时间敏感和多跳事实问答时,进一步优化检索策略,提升模型的鲁棒性与准确性,将是下一步需要攻克的关键难题。

问答

DeepRAG 是如何通过二叉树搜索构建推理路径的?

具体流程非常清晰:对于给定问题,模型先拆解出第一个子查询,然后同时探索两种回答策略——要么依靠自身“内存”,要么到外部文档中“查找”。每走一步,都会依据当前状态和设定好的策略,递归地执行相同操作,直到生成最终答案或达到迭代上限。通过这种方式,DeepRAG 不仅将问题分解为一连串前向依赖的子查询,还彻底审视了“检索”这一步对最终答案的真实影响,确保了推理的连贯性和检索的有效性。

模仿学习阶段是如何利用二叉树搜索合成数据的?

这个过程可视为“淘金”。首先,初始化一个按检索成本排序的优先队列。模型从队列中取出当前成本最低的路径,生成下一个子查询,然后决定是直接回答还是检索。每走一步,新生成的路径和结果都会被放回队列继续排队。重复此过程,直到队列耗尽,或找到一条能生成正确答案的路径为止。最终收集到的,就是那些检索成本最低的优质推理轨迹。用这些数据微调模型,优化的核心在于“何时终止”和“如何选择动作”这两个关键决策。

来源:https://www.53ai.com/news/RAG/2025022812098.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。