文档管理#

大多数LlamaIndex索引结构支持插入、删除、更新和刷新操作。

插入#

你可以在最初构建索引后，向任何索引数据结构中"插入"新的文档。该文档将被分解为节点并被索引吸收。

插入操作的底层机制取决于索引结构。例如，对于摘要索引，新文档会作为附加节点插入到列表中。对于向量存储索引，新文档（及其嵌入向量）会被插入到底层的文档/嵌入存储中。

以下是一个示例代码片段：

from llama_index.core import SummaryIndex, Document

index = SummaryIndex([])
text_chunks = ["text_chunk_1", "text_chunk_2", "text_chunk_3"]

doc_chunks = []
for i, text in enumerate(text_chunks):
    doc = Document(text=text, id_=f"doc_id_{i}")
    doc_chunks.append(doc)

# insert
for doc_chunk in doc_chunks:
    index.insert(doc_chunk)

删除#

您可以通过指定document_id从大多数索引数据结构中"删除"一个文档。（注意：树状索引目前不支持删除操作）。与该文档对应的所有节点都将被删除。

index.delete_ref_doc("doc_id_0", delete_from_docstore=True)

delete_from_docstore 默认值为 False，适用于您在使用相同文档存储库的索引间共享节点的情况。然而，当此参数设为 False 时，这些节点在查询时将不会被使用，因为它们会从索引的 index_struct 中删除，该结构负责跟踪哪些节点可用于查询。

更新#

如果文档已存在于索引中，您可以使用相同的文档id_来"更新"该文档（例如，当文档中的信息发生变化时）。

# NOTE: the document has a `doc_id` specified
doc_chunks[0].text = "Brand new document text"
index.update_ref_doc(doc_chunks[0])

刷新#

如果在加载数据时为每个文档设置了id_文档ID，您还可以自动刷新索引。

refresh() 函数只会更新那些具有相同文档 id_ 但文本内容不同的文档。任何索引中完全不存在的文档也将被插入。

refresh() 还会返回一个布尔值列表，用于指示输入中的哪些文档已在索引中刷新。

# modify first document, with the same doc_id
doc_chunks[0] = Document(text="Super new document text", id_="doc_id_0")

# add a new document
doc_chunks.append(
    Document(
        text="This isn't in the index yet, but it will be soon!",
        id_="doc_id_3",
    )
)

# refresh the index
refreshed_docs = index.refresh_ref_docs(doc_chunks)

# refreshed_docs[0] and refreshed_docs[-1] should be true

再次，我们传递了一些额外的kwargs参数以确保文档从文档存储中删除。这当然是可选的。

如果你print()输出refresh()的结果，就能看到哪些输入文档被刷新了：

print(refreshed_docs)
# > [True, False, False, True]

当您从一个不断更新新信息的目录中读取时，这非常有用。

要在使用SimpleDirectoryReader时自动设置文档id_，可以设置filename_as_id标志。您可以了解更多关于自定义文档的信息。

文档追踪#

任何使用文档存储的索引（即除大多数向量存储集成外的所有索引），您还可以查看已插入文档存储中的文档。

print(index.ref_doc_info)
"""
> {'doc_id_1': RefDocInfo(node_ids=['071a66a8-3c47-49ad-84fa-7010c6277479'], metadata={}),
   'doc_id_2': RefDocInfo(node_ids=['9563e84b-f934-41c3-acfd-22e88492c869'], metadata={}),
   'doc_id_0': RefDocInfo(node_ids=['b53e6c2f-16f7-4024-af4c-42890e945f36'], metadata={}),
   'doc_id_3': RefDocInfo(node_ids=['6bedb29f-15db-4c7c-9885-7490e10aa33f'], metadata={})}
"""

输出中的每个条目显示已摄入文档的id_作为键，以及它们被分割成的节点相关联的node_ids。

最后，系统还会追踪每个输入文档原始的metadata字典。您可以在自定义文档中了解更多关于metadata属性的信息。