Skip to content

父子词汇图

上下文

将大文档分割成较小的部分对于创建嵌入非常有用。嵌入是文本的语义表示,捕捉了文本的含义。如果给定的文本很长且包含太多不同的主题,其嵌入的信息价值会降低。 一个更窄的文本片段将产生比更广泛的文本更有意义的向量表示,因为来自多个主题的噪音较少。然而,如果LLM只接收到非常小的信息片段来生成答案,信息可能会缺少上下文。检索到包含所找到信息的更广泛的文本片段可以解决这个问题。
这种模式是Lexical Graph的演变

图形模式

Graph

元素

节点

Chunk Node 文档节点包含文档名称及其来源。它们可能包含额外的元数据。 Chunk Node 块节点包含块的人类可读文本及其向量嵌入。它们可能包含额外的元数据。

关系

PART_OF Relationship PART_OF关系不需要额外的属性。然而,它们可能包含额外的元数据。

HAS_CHILD Relationship HAS_CHILD 关系不需要额外的属性。然而,它们可能包含额外的元数据。

描述

在分块文档时,将它们分割成(较大的)块(也称为父块),并进一步将这些块分割成更小的块(也称为子块)。使用嵌入模型来嵌入子块的文本内容。注意,不需要嵌入父块,因为它们仅用于答案生成,而不用于相似性搜索。

GraphRAG 模式

父-子词汇图用于父-子检索器