从局部到全局:一种基于图RAG的查询聚焦摘要方法
By
Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Jonathan Larson arXiv:2404.16130
[ cs.CL, cs.AI, cs.IR, H.3.3; I.2.7
]
github:microsoft/graphrag
摘要
使用检索增强生成(RAG)从外部知识源检索相关信息,使大型语言模型(LLMs)能够回答关于私人和/或以前未见过的文档集合的问题。然而,RAG在处理针对整个文本语料库的全局问题时失败,例如“数据集中的主要主题是什么?”,因为这本质上是一个以查询为中心的摘要(QFS)任务,而不是一个明确的检索任务。与此同时,先前的QFS方法无法扩展到典型RAG系统索引的文本数量。为了结合这些对比方法的优势,我们提出了一种图RAG方法,用于回答关于私人文本语料库的问题,该方法能够随着用户问题的普遍性和源文本索引数量的增加而扩展。我们的方法使用LLM在两个阶段构建基于图的文本索引:首先从源文档中导出实体知识图,然后为所有紧密相关的实体组预生成社区摘要。给定一个问题,每个社区摘要用于生成部分响应,然后在最终响应中再次总结所有部分响应。对于在100万令牌范围内的数据集上的一类全局理解问题,我们展示了图RAG在生成答案的全面性和多样性方面相对于朴素RAG基线的显著改进。一个开源的、基于Python的全局和局部图RAG方法的实现即将在https://aka.ms/graphrag发布。