全量召回式检索增强大模型：从整本书提取长对象列表_AI热点日报

全量召回式检索增强大模型：从整本书提取长对象列表

类型：热点整理2026-05-31

对于从长文本提取长对象列表的任务，提出L3X方法，分为召回导向生成和精确导向审查两阶段。前者通过检索大量段落并迭代优化生成候选列表，后者保守识别高置信度对象并剔除不可靠项。在10本书8种关系上的实验表明，该方法在召回率和R@P指标上优于仅用大语言模型的方法。

首先，我们了解一下相关背景。信息抽取（Information Extraction，简称IE）的核心目标，是从非结构化文本中挖掘出结构化数据。而关系抽取作为IE的关键子任务，主要识别实体之间的特定语义关联。当前基于神经网络的深度学习方法在精确度方面表现优异，但也存在明显短板——召回率往往有所折损，即对相关实体的全面识别能力不足。更棘手的是，这些方法大多只适用于单个段落，面对整本书、多页网页等长篇文本时，几乎束手无策。因此，一个自然衍生出的问题便是：我们能否从长文本中提取出与特定主题相关的长对象列表？

从长篇内容中提取长列表的典型场景

以“哈利·波特”主题为例，目标是从整个系列书籍中完整找出57位朋友角色。由于信息分散在数百页的文本中，这绝非易事。

L3X：两阶段长列表提取方案

针对这一难题，研究人员提出了L3X方法（即基于语言模型的长列表抽取）。其核心思想可分解为两个阶段：

第一阶段：召回导向的生成

这一阶段的关键词是“海选”。具体做法是：围绕当前主题及关系，向大型语言模型（LLM）提供提示，促使其尽可能生成一份完整的目标对象列表。同时，通过信息检索系统从长文本中挖掘出那些看似有希望的候选段落，并将其纳入LLM的提示中。与以往检索增强型LLM的思路不同，此阶段会检索大量段落（例如针对某个SPO三元组可检索多达500个），并精心挑选最匹配的段落用于模型提示。此外，这一过程并非一次性完成——它会迭代地对段落重新排序，并反复让LLM生成，从而不断优化初始对象列表。简而言之，先宽进，把可能相关的内容都纳入，再逐步筛选。

第二阶段：精确导向的审查

在第一步获得高召回率的候选对象列表后，接下来进入“严出”环节。该阶段的目标是精准验证与修剪。它采用偏保守的技术，专门识别高置信度的对象，找到对应的支持段落，同时重新评估那些可信度存疑的候选对象，最终剔除不合格者。

实验效果与总结

在新构建的数据集（包含10本书、8种不同关系类型）上进行的实验表明，L3X方法在召回率和R@P指标上全面优于仅依赖LLM生成的方法。换言之，该方法能够有效从长篇文档中提取出较长的对象列表。当然，通过优化提示策略、段落排序以及批处理技术，其性能还有进一步提升的空间。

论文地址：
Recall Them All: Retrieval-Augmented Language Models for Long Object List Extraction from Long Documents
https://arxiv.org/pdf/2405.02732

来源：https://www.53ai.com/news/qianyanjishu/2029.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。