BookRAG:用SOTA方法提升复杂文档理解效果的实用指南
BookRAG系统真正把“书”当书来解读:它首先恢复原始目录结构,然后构建书中实体关系图谱,最终使AI能够像人类阅读一样“品味内容脉络”,在复杂文档问答任务上全面超越了现有最佳模型。
香港中文大学最新研究成果

论文地址:https://arxiv.org/pdf/2512.03413开源地址:https://github.com/sam234990/BookRAG
一句话总结
BookRAG真正实现了“读书式”文档解析:重建目录树、绘制知识图谱、模仿人类阅读路径,最终在复杂文档问答中全面领先。
传统RAG → 扁平切片 → 结构丢失
LayoutRAG → 保留块但无关联 → 跨块断链
BookRAG → 树图双索引 + 主动思考 → 精准定位

直击痛点
传统RAG方法将PDF当作一维文本处理,遇到真正的“书籍”类文档(如手册、论文、年报)就显得力不从心:
核心亮点

方案概览
① 离线建索引(BookIndex)
布局解析 → 将PDF拆解为内容块(标题、段落、表格、图片)章节过滤 → LLM为每个“标题”块定级,还原真实目录树实体抽取 → 每块抽实体/关系,构建知识图G消歧合并 → 梯度法检测“突变式”相似度下降,自动合并别名树图映射 → 每个实体挂载原始章节,形成GT-Link> 成果:一棵带“页码”的树 + 一张会“指引”的图

② 在线问答(Agent-based Retrieval)
查询意图识别:Single-hop / Multi-hop / Global-aggregation 三类路径匹配:动态组合4类智能体Formulator:解析问题、抽取关键实体
Selector:基于内容关联度或路径过滤缩小搜索范围
Reasoner:图文双维度分析打分
Synthesizer:汇总局部答案形成最终结论
执行流程:Skyline算子选取最优块 → 送LLM生成
图片
实验结果
召回率:71.2%(↑26.7%)Token开销:仅为DocETL的1/10平均延迟:提速2×

消融实验
思考启示
层级化文档不限于“书籍”:合同、病历、法规皆可参照此思路信息汲取理论为RAG带来了“人类式阅读”的可解释路径梯度消歧是clean-ER的低成本替代方案,可迁移到任何单文档图谱构建热门专题
热门推荐
现货持有者坚守仓位,比特币接近115,000水平 近期比特币(BTC)价格接近$115,000水平,市场整体情绪谨慎,但现货持有者依旧坚守仓位,显示出一定的多头信心。 市场现状与资金流动 那么,当前市场的资金究竟在如何流动?分析显示,一个有趣的现象正在上演:短线资金的流入其实相当有限,市场热度并未急
目录 要点介绍:分析师称XRP呈现“最强看涨结构”高位清算集中于2 90美元以上区域 周四,XRP价格稳稳站在了2 80美元上方。这个位置守住了,意味着什么?意味着市场向那个经典的“杯柄形态”目标价——6美元以上——又迈进了一步。 要点介绍: 先看几个核心数据:周四XRP报收2 82美元。技术分析显
近期,以太坊(ETH)衍生品市场经历了短暂的闪崩,但随后价格快速企稳,交易者开始关注关键突破点——$4,500水平。 ETH衍生品市场现状 市场情绪往往在剧烈波动后显露真容。从最新的链上数据和期权、永续合约的交易情况来看,那场短暂的闪崩更像是一次压力测试——结果是,市场波动率显著下降,多空力量似乎进
DOGE单日暴涨11%,交易量激增四倍,市场风向变了? 最近,加密货币市场又热闹起来了。DOGE(狗狗币)上演了一出“旱地拔葱”,价格单日暴涨11%,更关键的是,成交量直接翻了四倍。这种“价量齐升”的场面,无疑给整个迷因币板块打了一针强心剂,市场情绪肉眼可见地回暖了。 DOGE价格拉升原因分析 那么
如何安全获取欧易(OKX)官方APP?一份详尽的下载与使用指南 Binance币安 欧易OKX ️ Huobi火币️ 当人们谈论“欧易易欧”时,指的往往是那个全球顶尖的数字资产交易平台——欧易(OKX)。作为业务版图庞大的行业巨头,其官方APP无疑是用户进行交易、查看行情和管理资产的核心工具。不过,





