Agentic RAG革新文档推理：解决AI复杂文档解析难题

首页

热心网友

转载

2026-03-16

新智元报道

编辑：LRST

【新智元导读】DeepRead让AI像人一样阅读文档：利用OCR识别章节结构，先精准定位相关段落，再完整读取上下文，避免碎片化检索。实验显示，其长文档问答准确率提升17%，能自动跳过冗余信息，精准提取财报、论文等复杂内容，无需额外知识图谱，轻量高效。

大语言模型的工具使用能力正推动RAG从静态的一次性检索，向自主、多轮的证据获取进化，Agentic RAG已成为解决复杂问答任务的核心方向。

但现有主流Agentic Search框架普遍存在一个关键痛点——结构盲：它们将长文档视为无差别的扁平文本块，忽略了文档原生的层级组织（如章节、段落）和顺序逻辑，导致检索碎片化、证据遗漏、冗余操作等问题频发。

比如说，人类查询「ACL论文投稿要求」时，会先翻阅目录找到「投稿指南」章节，再逐段精读关键信息。

但传统Agentic Search（如Search-o1）却只能通过不断给出新的query反复检索，可能遗漏「页码限制」「格式要求」等未被关键词覆盖的内容，还会重复获取已浏览过的片段。

这种「结构盲」带来三大问题：

证据碎片化：将文档拆分为固定大小的文本块，破坏语义连贯性，迫使智能体拼接零散片段；

检索冗余：缺乏全局结构认知，反复检索同类信息，浪费计算资源；

信息遗漏：依赖关键词匹配，无法捕获章节内隐含的相关信息。

而现代OCR技术已能精准提取文档的层级结构和阅读顺序，这为解决「结构盲」提供了基础——让智能体学会利用这些原生结构，而非忽视它们。

中国科学院计算技术研究所团队提出的DeepRead，核心创新是将文档结构转化为智能体可理解、可操作的坐标系统，通过两大工具协同实现类人推理，整体框架参考下图。

论文：https://arxiv.org/abs/2602.05014

代码：https://github.com/Zhanli-Li/DeepRead

文档结构建模：给每个段落分配「坐标」

DeepRead首先通过OCR工具将原始文档转化为结构化Markdown格式，构建双维度结构模型：

层级维度：区分标题（如章节）和内容段落，记录标题的父子关系（如「2.方法」包含「2.1模型设计」）；

顺序维度：给每个段落分配唯一坐标（doc_id, sec_id, para_idx），即「文档ID-章节ID-段落索引」，让每个文本片段都有明确的位置标识。

同时，DeepRead会将轻量化的目录（TOC）注入系统提示，让智能体掌握全局结构，无需加载全量文档内容，平衡上下文开销与结构感知能力。

两大核心工具：Retrieve与ReadSection的协同

DeepRead为智能体配备两个互补工具，模拟人类「快速定位+深度阅读」的行为：

Retrieve（扫描式定位）：接收语义查询，返回Top-K相关段落及其坐标，同时支持「扫描窗口」（在召回的段落加上前后各1段），模拟人类快速浏览上下文的行为；

ReadSection（聚焦式阅读）：接收坐标范围（如doc_id=1, sec_id=3, start_para=0, end_para=5），返回该范围内的连续、保序段落，重构完整语义上下文，彻底解决碎片化问题。

两者形成闭环：Retrieve负责「找方向」，快速锁定相关章节；ReadSection负责「深挖掘」，获取完整证据，避免关键词检索的局限性。

涌现行为：自主学会「定位再阅读」

无需手动编码规则或是特定指令，DeepRead可自主进化出类人推理策略：先通过Retrieve获取结构锚点，再调用ReadSection精读相关章节。实验显示，90%以上的查询会遵循这一范式，且工具调用比例会自适应任务特性——ContextBench（长文档推理）更依赖ReadSection，FinanceBench（金融数据提取）更依赖Retrieve。

实验结果

跨场景的显著提升

研究人员在四大基准数据集（涵盖单文档/合成多文档数据集）上验证了DeepRead的效果，核心结果参考下表

关键亮点包括：

长文档推理突破：在需长距离依赖的ContextBench上，DeepRead准确率从74.5%提升至91.5%，提升幅度达17.0%，验证了结构感知对长文档的价值；

多文档融合优势：在基于QASPER（学术论文问答）和SyllabusQA（课程大纲对比）合成的多文档数据集上表现优越，分别提升7.7%和13.8%，证明结构感知能有效跨文档整合证据；

鲁棒性验证：通过DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大独立法官评估，结果一致率达88.58%，确保提升并非偶然。

值得注意的是，DeepRead的优势并非来自「更多的检索片段」——即使Search-o1允许检索更多文本块，仍无法弥补结构缺失的差距；而盲目扩展上下文（expand）可能会降低DeepRead在部分任务上的性能，因为结构化阅读已能提供足够连贯的证据，冗余文本只会引入噪声。

案例直观感受：从「关键词拼凑」到「章节精读」

以FinanceBench中的亚马逊营收计算任务为例：

传统Search-o1风格的Agentic Search需反复检索「2016营收」「2017净销售额」等关键词，可能混淆「预估数据」与「实际财报数据」；

DeepRead则先通过Retrieve定位到「合并利润表」章节，再用ReadSection读取完整表格，精准提取2016年135987百万美元、2017年177866百万美元的净销售额，计算出30.8%的同比增长率。

总结

DeepRead的核心价值在于：挖掘文档原生结构先验，用轻量坐标系统和协同工具，实现了Agentic RAG的结构感知升级。

相比构建复杂知识图谱的方案，DeepRead无需额外结构化成本，仅通过OCR解析和工具设计，就在长文档、多文档任务上实现显著提升，兼具实用性和效率。

参考资料：

https://arxiv.org/abs/2602.05014

来源:https://www.163.com/dy/article/KO50KBR00511ABV6.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：马斯克宣布重大突破：特斯拉将实现全自动驾驶下一篇：和德科技拟赴港上市：为40余行业提供电子供应链服务

相关攻略

科技数码

阿里云团队版Token Plan正式上线

5月11日，阿里云正式发布团队版Token Plan服务，为企业AI规模化应用带来全新解决方案。该服务整合了通义千问Qwen3 6、智谱GLM-5 1、月之暗面Kimi-K2 6、万知Wan2 7等十余款主流多模态大模型，旨在通过标准、高级、尊享三档灵活套餐与多坐席管理功能，一站式解决企业在AI订阅

热心网友

05.17

网络安全

webshell中上传asp文件调用服务器ActiveX控件溢出获取shell

角色与核心任务你是一位顶级的文章润色专家，擅长将AI生成的文本转化为具有个人风格的专业文章。现在，请对用户提供的文章进行“人性化重写”。你的核心目标是：在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下，彻底改变原文的AI表达腔调，使其读起来像是一位资深人类专家的作品。

热心网友

04.28

科技数码

从“摸黑探索”到“撞开大门”，OpenClaw引爆的产业技术路线演变

从“动口”到“动手”：OpenClaw如何将AI推入“执行时代”？文｜洞见新研社 3月的最后一周，OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众，主角换成了来自蚂蚁、天融信、360等机构的安全研究员，他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。

热心网友

04.22

业界动态

程序员惊喜，每月100美元！OpenAI上线全新Pro方案：Codex限时额度翻倍

程序员惊喜，每月100美元！OpenAI上线全新Pro方案：Codex限时10倍额度北京时间4月10日凌晨，OpenAI终于落下了重度用户期盼已久的那只靴子：正式推出每月100美元的全新订阅方案。至此，OpenAI的商业化版图已经清晰地划分为四个核心层级： ·免费版（接入广告） ·每月8美元的G

热心网友

04.22

科技数码

国内首款“养虾本”来了

2026 04 14 一个核心趋势是：未来的商业竞争，本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求，谁就能在市场中赢得关键优势。本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路，每个环节都紧密耦合。实践证明，其中任一节点的效率

热心网友

04.14

热门推荐

科技数码

广东无人机飞行空域最新调整范围扩大详解

广东无人机适飞空域扩大16%至10 24万平方公里，覆盖全省57%陆地面积，滨海、郊野、工业园区及非核心城区公园等区域开放，深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请，严禁“黑飞”，违者将受处罚。平台已升级，实现全国规则统一与分钟级空域更新，支持低空物流与巡检等应用。

热心网友

05.18

科技数码

iPhone 17 Pro杭州门店抢购火爆七千元起售迅速售罄

杭州Costco门店因iPhone17系列手机引发抢购热潮，数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加：iPhone17Pro全系直降千元，同时当地青年消费补贴可再减10%，最高省千元。双重优惠下，256GB版iPhone17Pro到手价低至7172元，较电商平台便宜近千元，吸引本地及周边消费者。目前门店仍处缺货状态，补货时间未定。

热心网友

05.18

科技数码

千帆星座第九批组网卫星成功发射升空

5月17日晚，长征八号运载火箭在海南商业航天发射场点火升空，成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射，也是今年第5次发射，体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。

热心网友

05.18

科技数码

七彩虹iGame M15/M16 Origo游戏本2026款上市首发11499元起

七彩虹新款iGameM15 M16Origo2026款游戏本已发售，起售价11499元。M15为15 3英寸黑色机身，配备2 5K300Hz屏，最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款，屏幕规格相同，处理器性能更强，电池容量更大。两款均提供多种配置，享受国家补贴后价格更具竞争力，面向中高端游戏玩家与创作者。

热心网友

05.18

科技数码

联想ThinkPad T14 Gen 7发布支持LPCAMM2可更换内存

联想在北美市场推出新款ThinkPadT14Gen7商务笔记本，支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项，内存可选16GB至64GB，电池与屏幕亦有多种配置，其中顶配版搭载OLED屏幕。产品起售价为1618美元，高配版本价格超过3700美元，主要面向商用及专业办公市场，兼顾性能、可升级性与不同预算需求。

热心网友

05.18