图检索增强生成：综述

发布于2024年8月15日

By Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi, Chuntao Hong, Yan Zhang, Siliang Tang

arXiv:2408.08921 [ cs.AI, cs.CL, cs.IR ] github:pengboci/GraphRAG-Survey

摘要

最近，检索增强生成（RAG）在解决大型语言模型（LLMs）的挑战方面取得了显著成功，而无需重新训练。通过引用外部知识库，RAG优化了LLM的输出，有效缓解了诸如“幻觉”、缺乏领域特定知识和信息过时等问题。然而，数据库中不同实体之间关系的复杂结构对RAG系统提出了挑战。为此，GraphRAG利用实体间的结构信息，实现更精确和全面的检索，捕捉关系知识，并促进更准确、上下文感知的响应。鉴于GraphRAG的新颖性和潜力，对当前技术进行系统回顾是必要的。本文首次全面概述了GraphRAG方法。我们形式化了GraphRAG的工作流程，包括基于图的索引、图引导的检索和图增强的生成。然后，我们概述了每个阶段的核心技术和训练方法。此外，我们研究了GraphRAG的下游任务、应用领域、评估方法和工业用例。最后，我们探讨了未来的研究方向，以激发进一步的探索并推动该领域的进展。为了跟踪该领域的最新进展，我们在\url{https://github.com/pengboci/GraphRAG-Survey}上建立了一个仓库。