带有提取实体和社区摘要的词汇图
上下文
某些可以在整个数据集上提出的问题,不仅仅涉及某些数据块中存在的内容,而是寻找数据集中贯穿的总体信息。所有上述模式都不适合回答这类“全局”问题。
图形模式
元素
节点
文档节点包含文档名称及其来源。它们可能包含额外的元数据。
块节点包含块的人类可读文本及其向量嵌入。它们可能包含额外的元数据。
实体节点包含实体的名称。此外,它们可能包含实体的描述和向量嵌入(名称和描述)。它们可能包含额外的元数据。实体节点可以根据提取提示具有额外的标签。
社区节点包含与社区相关的所有数据,如级别、名称、摘要和完整内容。它们可能具有一个权重属性,表示该社区跨越了多少个块。它们可能包含额外的元数据。
关系
PART_OF关系不需要额外的属性。然而,它们可能包含额外的元数据。
HAS_ENTITY关系不需要额外的属性。然而,它们可能包含额外的元数据。
RELATES_TO关系在这里是示例性的。它们可以根据提取提示具有任何类型。它们也可能有一个描述。它们可能包含额外的元数据。
IN_COMMUNITY关系将实体连接到一个包含摘要的社区节点。这些关系不需要额外的属性。然而,它们可能包含额外的元数据。
PARENT_COMMUNITY关系将一个级别的社区连接到它们更高级别的社区节点。这些关系不需要额外的属性。然而,它们可能包含额外的元数据。
描述
除了提取实体及其关系外,我们还需要在领域图中形成层次化的社区。这可以通过使用Leiden算法来实现。对于每个社区,LLM将实体和关系信息总结为社区摘要。
GraphRAG 模式
在Global Community Summary Retrievers和Local Retrievers中使用了一个带有提取实体和社区摘要的词汇图。