游乐游手机版
首页/AI热点日报/热点详情

Distill-SynthKG提升知识图谱合成效率的新方法

类型:热点整理2026-06-28
在人工智能领域,知识图谱(KG)的构建始终是研究重点,尤其在需要深度知识推理的检索增强生成(RAG)场景中。传统的知识图谱提取方法多采用提示驱动模式,但在处理大规模语料时效率偏低,且容易造成信息遗漏。为突破这些瓶颈,研究人员提出了SynthKG——一种基于大型语言模型(LLM)的多步骤、文档级、无需

在人工智能领域,知识图谱(KG)的构建始终是研究重点,尤其在需要深度知识推理的检索增强生成(RAG)场景中。传统的知识图谱提取方法多采用提示驱动模式,但在处理大规模语料时效率偏低,且容易造成信息遗漏。为突破这些瓶颈,研究人员提出了SynthKG——一种基于大型语言模型(LLM)的多步骤、文档级、无需本体的知识图谱合成工作流。进一步地,通过在合成的文档-KG数据对上微调较小规模的LLM,他们将多步骤流程压缩为单步KG生成方法,并命名为Distill-SynthKG。这使得LLM的推理调用次数大幅降低。

Distill-SynthKG:提升知识图谱合成效率的新方法

主要贡献

  1. 提出SynthKG:设计了一套创新的LLM驱动工作流,能够生成高质量、高覆盖率的文档级知识图谱,且无需预设本体。
  2. 开发Distill-SynthKG:利用SynthKG合成的训练数据微调更小的LLM,将多步骤推理浓缩为单步,显著减少对LLM调用的依赖。
  3. 构建专用KG评估数据集:通过改造现有多跳问答数据集,并引入全新评估指标,打造了一个专用于知识图谱评测的基准。
  4. 引入新型图检索方法:提出一种基于图结构的检索策略,充分利用Distill-SynthKG生成的知识图谱进行信息抽取。
  5. 实验验证:在多个数据集上的结果表明,Distill-SynthKG在知识图谱质量上全面超越所有基准模型(最高提升八倍),并在检索和问答任务中始终保持领先。

方法概述

SynthKG的工作流程如下:首先,将输入文档切分为语义完整且大小可控的文本块。随后对每个文本块执行去上下文化处理——在此步骤中,基于前文上下文完成实体消歧,使每个数据块成为独立自包含的单元。接着,通过提示LLM从各个文本块中抽取实体、关系及对应命题,最终将这些要素组合成完整知识图谱。最后,微调更小的Distill-SynthKG LLM,使其能够在单个推理步骤中为给定文档直接生成知识图谱。

实验与结果

研究人员在多个数据集上对Distill-SynthKG进行了全面评估,结果显示其在知识图谱覆盖率、检索准确率以及问答性能方面均显著优于其他模型。尤其在多跳问答任务中,Distill-SynthKG表现极为出色,充分证明了其在RAG应用中的巨大潜力。

结论

Distill-SynthKG将多步骤的知识图谱构建过程精简为单步推理,既提升了效率,又确保了高质量的知识图谱产出。该方法为大规模、无本体的知识图谱构建提供了可扩展的解决方案,对RAG任务具有重要应用价值。值得一提的是,研究团队已公开SynthKG数据集与Distill-SynthKG模型,旨在支持后续研究与开发,推动知识图谱合成领域持续进步。

来源:https://www.53ai.com/news/knowledgegraph/2024122671536.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。