游乐游手机版
首页/AI热点日报/热点详情

微软开源GraphRAG技术原理与实践详解

类型:热点整理2026-05-30
微软开源GraphRAG,一种基于图的检索增强生成方法,利用大语言模型提取知识图谱并聚类生成社区摘要,支持全局与局部搜索,为私有数据集提供结构化问答能力。

2024年7月2日,微软正式开源了GraphRAG,消息迅速引爆技术社区。简而言之,这是一种基于图结构的检索增强生成(RAG)方法,专注于对私有或未见过的数据集进行问答。其核心思路是:利用大语言模型从数据中自动提取知识图谱,然后将图谱聚类成不同粒度的实体社区,再为每个社区生成摘要并汇总为最终输出。这一过程相当于为大模型配备了一张结构化的“知识地图”——不仅能定位零散的信息点,还能清晰呈现点与点之间的关联关系。

微软开源的GraphRAG解读

深入拆解可见,GraphRAG的核心由两个图谱构成:一个是文档图谱,另一个是文档内部的实体关系图谱。各组成部分定义如下:

  • 文档:系统接收的原始文件,例如CSV中的一行或一个txt文件。
  • 文本单元:待分析的文本片段,其大小、重叠方式以及是否遵守数据边界均可配置。
  • 实体:从文本单元中提取出的人、地点、事件等具体对象。
  • 关系:两个实体之间的连接。
  • 协变量:带有时间维度的声明信息,例如某实体在特定时间范围内的属性描述。
  • 社区报告:层次化社区检测后,为每个社区生成的总结报告。
  • 节点:渲染图视图的布局信息,包含已嵌入和聚类的实体与文档。

1 索引构建过程

将原始文本文档转换为GraphRAG的知识模型,需经历以下关键阶段:

1. 文本单元分割:输入文档首先被切分为文本单元,这些单元是后续图提取与源引用的基础。

2. 图谱提取:对每个文本单元执行实体、关系及声明的提取。该步骤包含多个子步骤——实体与关系抽取、实体与关系总结、实体消歧、声明抽取。其中实体与关系总结尤为关键:它让LLM将提取出的列表浓缩为一段简洁描述,确保每个实体和关系都有唯一且清晰的说明。

3. 图谱增强:在获取实体关系图后,还需理解其社区结构,并用额外信息增强。此过程分两步:社区检测图嵌入。社区检测采用层次化Leiden算法,递归聚类直至达到预设的社区大小阈值,从而在不同粒度级别上导航和总结图谱。图嵌入则使用Node2Vec算法生成向量表示,为后续查询提供额外的搜索空间。

  • 注意:社区检测提供显式的拓扑结构理解,而图嵌入则是隐式表示,两者互为补充。

4. 社区摘要:基于社区数据,为每个社区生成报告,提供高层次理解。例如,顶层社区对应整个图的概述,底层社区描述本地集群。具体流程:先让LLM为每个社区生成摘要(包含执行概述并引用关键实体、关系和声明),再对这些报告进行简写总结,最后生成社区报告、摘要和标题的文本嵌入作为向量表示。

5. 文档处理:此步骤构建文档图。首先将每个文档与对应的文本单元关联,然后进行文档嵌入——重新分块文档(不重叠),为每个块生成嵌入,再用token计数加权平均得到整个文档的向量表示。基于这种表示,可以推断文档间的隐含关系,进而生成文档的网络结构。

2 两个应用场景

1. 全局搜索:当用户希望询问“数据中有哪些主要主题”这类需要跨整个数据集聚合信息的问题时,全局搜索发挥作用。传统RAG依赖向量搜索寻找语义相似的文本片段,但若无明确查询指引,很难从分散片段中拼凑全局图景。而GraphRAG的知识图谱天然揭示了数据集的整体结构和主题分布——因为LLM生成的图谱已将私有数据集组织成有意义的语义集群,且这些集群已预先总结。具体实现采用map-reduce方式:将社区报告分割为预定义大小的文本块,每个块生成带评分的中间响应(点列表),然后在reduce步骤中筛选出最重要的点,聚合后作为生成最终响应的上下文。

2. 局部搜索:针对特定实体的推理,例如“张三在项目中的具体贡献是什么”。局部搜索首先识别与用户输入语义相关的实体集合,将这些实体作为入口,提取邻居实体、关系、协变量和社区报告;同时从原始文档中提取关联的文本块。然后对这些候选数据源进行优先级排序和过滤,适配到单一上下文窗口大小,最终生成回答。简言之,局部搜索结合了知识图谱的结构化数据与原始文档的非结构化数据,为LLM提供更充分的查询上下文。

3 结语

GraphRAG的核心逻辑十分清晰:针对全局搜索与局部搜索两大场景进行专项优化。但需警惕的是,它串联了实体识别、实体关系抽取、社区聚类等一系列算法,误差会逐层累积。实际落地可能需要投入大量精力进行调优,且未必每次都能奏效。不过,它所提出的“文档内部+文档外部”双图谱思路,以及基于图谱的嵌入补充方法,确实极具参考价值——至少为RAG技术的发展提供了一个富有启发性的方向。

论文题目:From Local to Global: A Graph RAG Approach to Query-Focused Summarization
论文链接:https://arxiv.org/pdf/2404.16130
项目链接:https://github.com/microsoft/graphrag

来源:https://www.53ai.com/news/RAG/2024070997368.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。