DeepRAG智能检索MDP精准消除事实幻觉准确率提升22%_AI热点日报

DeepRAG智能检索MDP精准消除事实幻觉准确率提升22%

类型：热点整理2026-07-01

DeepRAG将检索增强推理建模为马尔可夫决策过程，动态决定每一步是否检索外部知识。通过二叉树搜索和模仿学习优化推理路径，并借助校准链提升知识边界感知。实验表明，该方法在五个数据集上将回答准确率提升21 99%，同时显著降低检索成本。

大型语言模型在执行推理任务时，常常遭遇事实性幻觉，尤其是在面对时间敏感或多跳推理场景时表现尤为突出。单纯依赖参数化知识，覆盖面有限；而将全部期望寄托于检索增强生成（RAG），又往往面临任务分解不充分、检索冗余等问题，反而引入噪声，拖累回答质量。如何破解？DeepRAG 提供了一种颇具启发性的思路——将检索增强型推理建模为动态决策的马尔可夫过程。

DeepRAG：智能检索+MDP，精准秒杀事实幻觉，准确率飙升21.99%！

本文提出 DeepRAG，一个将检索增强型推理形式化为马尔可夫决策过程（MDP）的框架。它通过迭代分解查询，动态决定每一步是检索外部知识，还是依赖参数化推理。实验表明，DeepRAG 在提升检索效率的同时，将回答准确性提高了 21.99%，充分证明了其在优化检索增强型推理方面的有效性。

DeepRAG 核心方法

DeepRAG 的核心设计十分简洁：不再机械地“先检索再回答”，而是将整个推理过程拆解为策略性的决策链条。具体来说，它完成了以下几项关键工作：

马尔可夫决策过程建模

首先，它将问题分解、原子决策和最终答案生成这一整套流程，形式化定义为一个 MDP，包含状态、动作、转移概率与奖励函数。每个状态对应问题的一个部分解，动作则在“直接回答”和“检索外部知识”之间做出选择。这样一来，检索便转化成了一个可优化、可学习的策略问题。

二叉树搜索

为了找到最优推理路径，DeepRAG 实现了一种巧妙的二叉树搜索方法。对于每个子查询，模型并非武断地决定是否检索，而是同时探索两种策略：直接利用参数知识作答，或检索外部文档后再作答。通过这种“两条腿走路”的探索方式，它能够评估不同选择对最终答案的影响，从而筛选出成本最低、效果最佳的路径。

模仿学习

有了二叉树搜索出的高质量路径，接下来便进入模仿学习阶段。核心算法维护一个优先队列，按检索成本排序所有可能的推理轨迹，优先处理成本更低的路径。它不断从队列中取出最优轨迹，生成下一个子查询，并根据情况决定是直接回答还是继续检索。

校准链

为了让模型更清楚地认识自身的“知识边界”，DeepRAG 引入了校准链。通过合成偏好数据，训练模型判断何时应该检索、何时应当信任内部知识。该过程包含一个巧妙的损失函数，用于调节模型偏离基线策略的惩罚力度，从而学会在“直接回答”与“检索回答”之间做出最合理的权衡。

实验设计

实验部分选用了五个开放域问答数据集，其中 HotpotQA 和 2WikiMultihopQA 用于训练，测试集涵盖 HotpotQA、2WikiMultihopQA、CAG、PopQA 和 WebQuestions。为公平对比，选取了 CoT、IterDRAG、FLARE、AutoRAG 等十种主流方法作为基线。在实现细节上，采用 BM25 作为检索模型，知识库为维基百科片段；基础模型则选择了 Llama-3-8B-Instruct 和 Qwen-2.5-7B。

结果与分析

从结果来看，DeepRAG 在所有测试场景中均超越了现有方法。与最先进的基线相比，它在各个数据集上表现出稳定提升，这绝非偶然。

在检索效率方面，DeepRAG 在保持高准确率的同时，大幅降低了检索成本。相比之下，纯粹的置信度方法在不同数据集上表现极不稳定，而迭代检索方法往往需要大量检索操作，效率堪忧。

针对“是否需要检索”的判断，DeepRAG 的 F1、平衡准确率和 MCC 指标均十分亮眼，说明它精准识别了检索的必要性。反观 FLARE、DRAGIN 等方法，虽然回答准确率不低，但在避免无谓检索方面表现欠佳。

一个有意思的发现是：完全依赖内部知识效果最差，而完全依赖外部知识虽然准确率高，但检索成本巨大。DeepRAG 通过自适应地选择内部与外部知识源，表现优于任何单一策略。

从问题分解的角度看，大多数问题需要 3 到 5 步分解，而检索尝试主要集中在 0 到 2 轮。这表明 DeepRAG 能够有效拆解问题，同时将冗余检索降到最低。

消融研究进一步证实了每个模块的价值。模仿学习阶段（DeepRAG-Imi）虽然在时间敏感的 CAG 数据集上稍弱，但平均性能更优。而校准链阶段，则在保持低检索成本的前提下，提升了整体回答质量。

DeepRAG 与现有 RAG 的区别

比完效果，更值得关注的是它究竟“新”在哪里：

动态与策略性检索：不再机械地遇到问题就检索，而是通过 MDP 将检索建模为动态决策过程，每一步均有策略地判断是否需要。这是根本性的思路转变。
二叉树搜索：向前探索多种策略路径，而非一条路走到黑。这使得模型能够从“事后”视角评估不同检索选择对最终答案的影响。
知识边界校准：通过校准链，让模型更清晰地感知自身知识边界。它不依赖外部不确定性度量，而是通过合成数据与偏好数据训练，让模型自主学习“何时该查资料”。
减少冗余检索：由于判断更精准，不必要的检索自然大幅减少，既提升了效率，也降低了引入噪声的风险。
端到端训练：整个框架采用端到端训练，不依赖额外参数或不可靠的不确定性指标，完全利用 LLM 自身的生成能力来探索知识边界。
多步推理：通过不断分解与决策，天然支持多步推理。这对于处理复杂、需要多跳思考的问题至关重要。

这些特征结合在一起，使得 DeepRAG 在处理需要多步推理和时间敏感的问答任务时，表现尤为出色。

总结

总体而言，DeepRAG 通过自校准方式，显著提升了 LLM 对检索需求的感知能力。它将查询拆解为子查询，利用二叉树搜索合成高质量数据，帮助模型理解自身知识边界。实验结果十分明确：在准确性和效率上均实现了显著提升。可以说，它为检索增强生成提供了一种强有力的新框架。

不足与反思

当然，没有完美的框架。DeepRAG 在大多数场景下表现优异，但在时间敏感的 CAG 数据集上，相比某些自适应检索方法仍有差距。这也指明了未来方向：如何在处理时间敏感和多跳事实问答时，进一步优化检索策略，提升模型的鲁棒性与准确性，将是下一步需要攻克的关键难题。

问答

DeepRAG 是如何通过二叉树搜索构建推理路径的？

具体流程非常清晰：对于给定问题，模型先拆解出第一个子查询，然后同时探索两种回答策略——要么依靠自身“内存”，要么到外部文档中“查找”。每走一步，都会依据当前状态和设定好的策略，递归地执行相同操作，直到生成最终答案或达到迭代上限。通过这种方式，DeepRAG 不仅将问题分解为一连串前向依赖的子查询，还彻底审视了“检索”这一步对最终答案的真实影响，确保了推理的连贯性和检索的有效性。

模仿学习阶段是如何利用二叉树搜索合成数据的？

这个过程可视为“淘金”。首先，初始化一个按检索成本排序的优先队列。模型从队列中取出当前成本最低的路径，生成下一个子查询，然后决定是直接回答还是检索。每走一步，新生成的路径和结果都会被放回队列继续排队。重复此过程，直到队列耗尽，或找到一条能生成正确答案的路径为止。最终收集到的，就是那些检索成本最低的优质推理轨迹。用这些数据微调模型，优化的核心在于“何时终止”和“如何选择动作”这两个关键决策。

来源：https://www.53ai.com/news/RAG/2025022812098.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。