SimGRAG: 利用相似子图进行知识图谱驱动的检索增强生成
By
Yuzheng Cai, Zhenyue Guo, Yiwen Pei, Wanrui Bian, Weiguo Zheng arXiv:2412.15272
[ cs.CL, cs.AI, cs.IR
]
github:YZ-Cai/SimGRAG
摘要
大型语言模型(LLMs)的最新进展在各种任务中展现了令人印象深刻的多样性。为了消除其幻觉,检索增强生成(RAG)已成为一种强大的方法,利用知识图谱(KGs)等外部知识源。在本文中,我们研究了KG驱动的RAG任务,并提出了一种新颖的相似图增强检索增强生成(SimGRAG)方法。它通过两阶段过程有效解决了对齐查询文本和KG结构的挑战:(1)查询到模式,使用LLM将查询转换为所需的图模式,(2)模式到子图,使用图语义距离(GSD)度量量化模式与候选子图之间的对齐。我们还开发了一种优化的检索算法,能够在10百万规模的KG上在1秒延迟内高效识别前$k$个子图。大量实验表明,SimGRAG在问答和事实验证方面优于最先进的KG驱动RAG方法,提供了卓越的即插即用可用性和可扩展性。