Skip to content

HybridRAG:集成知识图谱和向量检索增强生成以实现高效信息提取

By , , , , ,
arXiv:2408.04948 [ cs.CL, cs.LG, q-fin.ST, stat.AP, stat.ML ]

摘要

从金融应用中出现的非结构化文本数据中提取和解释复杂信息,如收益电话会议记录,即使使用当前最佳实践来使用检索增强生成(RAG)(称为VectorRAG技术,利用向量数据库进行信息检索),由于特定领域的术语和文档的复杂格式等挑战,对大型语言模型(LLMs)提出了重大挑战。我们引入了一种基于组合的新方法,称为HybridRAG,结合了基于知识图谱(KGs)的RAG技术(称为GraphRAG)和VectorRAG技术,以增强从金融文档中提取信息的问答(Q&A)系统,该系统能够生成准确且上下文相关的答案。通过对一组以Q&A格式呈现的金融收益电话会议记录文档进行实验,这些文档提供了自然的地面真实Q&A对,我们展示了HybridRAG在检索和生成阶段的检索准确性和答案生成方面优于传统的VectorRAG和GraphRAG。所提出的技术在金融领域之外也有应用。