一个基准测试,用于理解知识图谱在企业SQL数据库问答中大型语言模型准确性的作用
By
Juan Sequeda, Dean Allemang, Bryon Jacob arXiv:2311.07509
[ cs.AI, cs.CL, cs.DB
]
github:datadotworld/cwd-benchmark-data
摘要
大型语言模型(LLMs)在企业应用中的潜力在于能够对企业SQL数据库进行问答。然而,由于缺乏适合企业环境的文本到SQL基准测试,LLMs在此类数据库中准确回答企业问题的程度尚不明确。此外,知识图谱(KGs)通过提供业务上下文来增强基于LLM的问答系统的潜力尚未得到充分理解。本研究旨在评估在企业问题和SQL数据库背景下,LLM驱动的问答系统的准确性,同时探索知识图谱在提高准确性方面的作用。为此,我们引入了一个基准测试,包括保险领域的企业SQL模式、涵盖报告到指标的一系列企业查询,以及包含定义知识图谱的本体和映射的上下文层。我们的主要发现表明,使用GPT-4直接在SQL数据库上进行零样本提示的问答准确率为16%。值得注意的是,当问题在企业SQL数据库的知识图谱表示上提出时,这一准确率提高到54%。因此,投资于知识图谱可以为LLM驱动的问答系统提供更高的准确性。