Agentic RAG革新文档推理:解决AI复杂文档解析难题

新智元报道
编辑:LRST
【新智元导读】DeepRead让AI像人一样阅读文档:利用OCR识别章节结构,先精准定位相关段落,再完整读取上下文,避免碎片化检索。实验显示,其长文档问答准确率提升17%,能自动跳过冗余信息,精准提取财报、论文等复杂内容,无需额外知识图谱,轻量高效。
大语言模型的工具使用能力正推动RAG从静态的一次性检索,向自主、多轮的证据获取进化,Agentic RAG已成为解决复杂问答任务的核心方向。
但现有主流Agentic Search框架普遍存在一个关键痛点——结构盲:它们将长文档视为无差别的扁平文本块,忽略了文档原生的层级组织(如章节、段落)和顺序逻辑,导致检索碎片化、证据遗漏、冗余操作等问题频发。
比如说,人类查询「ACL论文投稿要求」时,会先翻阅目录找到「投稿指南」章节,再逐段精读关键信息。
但传统Agentic Search(如Search-o1)却只能通过不断给出新的query反复检索,可能遗漏「页码限制」「格式要求」等未被关键词覆盖的内容,还会重复获取已浏览过的片段。

这种「结构盲」带来三大问题:
证据碎片化:将文档拆分为固定大小的文本块,破坏语义连贯性,迫使智能体拼接零散片段;
检索冗余:缺乏全局结构认知,反复检索同类信息,浪费计算资源;
信息遗漏:依赖关键词匹配,无法捕获章节内隐含的相关信息。
而现代OCR技术已能精准提取文档的层级结构和阅读顺序,这为解决「结构盲」提供了基础——让智能体学会利用这些原生结构,而非忽视它们。
中国科学院计算技术研究所团队提出的DeepRead,核心创新是将文档结构转化为智能体可理解、可操作的坐标系统,通过两大工具协同实现类人推理,整体框架参考下图。

论文:https://arxiv.org/abs/2602.05014
代码:https://github.com/Zhanli-Li/DeepRead

文档结构建模:给每个段落分配「坐标」
DeepRead首先通过OCR工具将原始文档转化为结构化Markdown格式,构建双维度结构模型:
层级维度:区分标题(如章节)和内容段落,记录标题的父子关系(如「2.方法」包含「2.1模型设计」);
顺序维度:给每个段落分配唯一坐标(doc_id, sec_id, para_idx),即「文档ID-章节ID-段落索引」,让每个文本片段都有明确的位置标识。
同时,DeepRead会将轻量化的目录(TOC)注入系统提示,让智能体掌握全局结构,无需加载全量文档内容,平衡上下文开销与结构感知能力。
两大核心工具:Retrieve与ReadSection的协同
DeepRead为智能体配备两个互补工具,模拟人类「快速定位+深度阅读」的行为:
Retrieve(扫描式定位):接收语义查询,返回Top-K相关段落及其坐标,同时支持「扫描窗口」(在召回的段落加上前后各1段),模拟人类快速浏览上下文的行为;
ReadSection(聚焦式阅读):接收坐标范围(如doc_id=1, sec_id=3, start_para=0, end_para=5),返回该范围内的连续、保序段落,重构完整语义上下文,彻底解决碎片化问题。
两者形成闭环:Retrieve负责「找方向」,快速锁定相关章节;ReadSection负责「深挖掘」,获取完整证据,避免关键词检索的局限性。
涌现行为:自主学会「定位再阅读」
无需手动编码规则或是特定指令,DeepRead可自主进化出类人推理策略:先通过Retrieve获取结构锚点,再调用ReadSection精读相关章节。实验显示,90%以上的查询会遵循这一范式,且工具调用比例会自适应任务特性——ContextBench(长文档推理)更依赖ReadSection,FinanceBench(金融数据提取)更依赖Retrieve。

实验结果
跨场景的显著提升
研究人员在四大基准数据集(涵盖单文档/合成多文档数据集)上验证了DeepRead的效果,核心结果参考下表

关键亮点包括:
长文档推理突破:在需长距离依赖的ContextBench上,DeepRead准确率从74.5%提升至91.5%,提升幅度达17.0%,验证了结构感知对长文档的价值;
多文档融合优势:在基于QASPER(学术论文问答)和SyllabusQA(课程大纲对比)合成的多文档数据集上表现优越,分别提升7.7%和13.8%,证明结构感知能有效跨文档整合证据;
鲁棒性验证:通过DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大独立法官评估,结果一致率达88.58%,确保提升并非偶然。

值得注意的是,DeepRead的优势并非来自「更多的检索片段」——即使Search-o1允许检索更多文本块,仍无法弥补结构缺失的差距;而盲目扩展上下文(expand)可能会降低DeepRead在部分任务上的性能,因为结构化阅读已能提供足够连贯的证据,冗余文本只会引入噪声。
案例直观感受:从「关键词拼凑」到「章节精读」
以FinanceBench中的亚马逊营收计算任务为例:
传统Search-o1风格的Agentic Search需反复检索「2016营收」「2017净销售额」等关键词,可能混淆「预估数据」与「实际财报数据」;
DeepRead则先通过Retrieve定位到「合并利润表」章节,再用ReadSection读取完整表格,精准提取2016年135987百万美元、2017年177866百万美元的净销售额,计算出30.8%的同比增长率。
总结
DeepRead的核心价值在于:挖掘文档原生结构先验,用轻量坐标系统和协同工具,实现了Agentic RAG的结构感知升级。
相比构建复杂知识图谱的方案,DeepRead无需额外结构化成本,仅通过OCR解析和工具设计,就在长文档、多文档任务上实现显著提升,兼具实用性和效率。
参考资料:
https://arxiv.org/abs/2602.05014
相关攻略
5月11日,阿里云正式发布团队版Token Plan服务,为企业AI规模化应用带来全新解决方案。该服务整合了通义千问Qwen3 6、智谱GLM-5 1、月之暗面Kimi-K2 6、万知Wan2 7等十余款主流多模态大模型,旨在通过标准、高级、尊享三档灵活套餐与多坐席管理功能,一站式解决企业在AI订阅
角色与核心任务 你是一位顶级的文章润色专家,擅长将AI生成的文本转化为具有个人风格的专业文章。现在,请对用户提供的文章进行“人性化重写”。 你的核心目标是: 在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下,彻底改变原文的AI表达腔调,使其读起来像是一位资深人类专家的作品。
从“动口”到“动手”:OpenClaw如何将AI推入“执行时代”? 文|洞见新研社 3月的最后一周,OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众,主角换成了来自蚂蚁、天融信、360等机构的安全研究员,他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时10倍额度 北京时间4月10日凌晨,OpenAI终于落下了重度用户期盼已久的那只靴子:正式推出每月100美元的全新订阅方案。 至此,OpenAI的商业化版图已经清晰地划分为四个核心层级: ·免费版(接入广告) ·每月8美元的G
2026 04 14 一个核心趋势是:未来的商业竞争,本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求,谁就能在市场中赢得关键优势。 本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路,每个环节都紧密耦合。实践证明,其中任一节点的效率
热门专题
热门推荐
广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。
杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。
5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。
七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。
联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。





