知识图谱简介
知识图谱简介
一个知识图谱模型特别适合表示具有连接元素的结构化和非结构化数据。 与传统数据库不同,它们不需要严格的模式,但在数据模型中更加灵活。 图模型允许高效地存储、管理、查询和处理现实世界信息的丰富性。 在RAG系统中,知识图谱作为LLMs语言技能的灵活记忆伴侣,如摘要、翻译和提取。
在知识图谱中,事实和实体被表示为带有属性的节点,这些节点通过带有类型的关系连接,这些关系也带有用于限定的属性。 这种图模型可以从简单的家谱扩展到涵盖员工、客户、流程、产品、合作伙伴和资源的公司完整数字孪生,拥有数百万或数十亿的连接。
图结构可以来源于各种来源,从结构化的业务领域、(层次化的)文档表示,以及由图算法计算的信号。
当我们深入研究检索模式时,我们注意到最先进的技术依赖于数据内部的连接。 无论是元数据过滤,比如按特定作者或特定主题搜索文章,还是父子检索器,它们通过导航回到文本块的父级来为LLM提供广度,以获取上下文丰富的答案,这些方法都利用了要检索的数据之间的关系。
通常,这些实现严重依赖于客户端数据结构和连接不同信息片段的大量Python代码。 然而,在图数据库中,建立真实的关系并使用简单的模式查询它们要高效得多。
在几乎每个模式的图形模式中,您将看到以下类型的实体
- 表示您的应用程序域的实体或域节点
- 领域关系
- 表示摄入图中的非结构化文档的文档节点
- 分块的节点
它们是大多数GraphRAG模式的基础,并且至少具有以下两个属性:文本和嵌入,其中文本包含块的人类可读文本字符串,嵌入包含文本的计算嵌入。
进一步阅读
- 操作指南:chunking