医学图谱RAG:通过图谱检索增强生成实现安全的医学大型语言模型
Junde Wu, Jiayuan Zhu, Yunli Qi, Jingkun Chen, Min Xu, Filippo Menolascina, Vicente Grau arXiv:2408.04187
[ cs.CV
]
github:MedicineToken/Medical-Graph-RAG
By
摘要
我们介绍了一种新颖的基于图的检索增强生成(RAG)框架,专门为医疗领域设计,称为\textbf{MedGraphRAG},旨在增强大型语言模型(LLM)生成基于证据的医疗响应的能力,从而提高处理私人医疗数据时的安全性和可靠性。基于图的RAG(GraphRAG)利用LLM将RAG数据组织成图,显示出从长文档中获得整体洞察的强大潜力。然而,其标准实现对于一般用途过于复杂,并且缺乏生成基于证据的响应的能力,限制了其在医疗领域的有效性。为了将GraphRAG的能力扩展到医疗领域,我们提出了独特的三重图构建和U-Retrieval技术。在我们的图构建中,我们创建了一个三重链接结构,将用户文档连接到可信的医疗来源和受控词汇表。在检索过程中,我们提出了U-Retrieval,它结合了自上而下的精确检索和自下而上的响应细化,以平衡全局上下文意识与精确索引。这些努力使得源信息检索和全面响应生成成为可能。我们的方法在9个医疗问答基准、2个健康事实核查基准和一个测试长文档生成的数据集上得到了验证。结果表明,MedGraphRAG在所有基准测试中始终优于最先进的模型,同时确保响应包括可信的源文档和定义。我们的代码发布于: https://github.com/MedicineToken/Medical-Graph-RAG。