Airbyte

Airbyte 是一个开源的数据集成平台,帮助你在不同系统之间复制数据。它有一个不断增长的连接器列表,可以用来从多个来源摄取数据。构建数据管道对于管理 Qdrant 中的数据也至关重要,而 Airbyte 是实现这一目的的绝佳工具。

Airbyte 可能负责从选定来源进行数据摄取,而 Qdrant 将帮助您在其上构建搜索引擎。有三种支持的模式可以将数据摄取到 Qdrant 中:

  • 完全刷新同步
  • 增量 - 追加同步
  • 增量 - 追加 + 去重

你可以在Airbyte文档中阅读更多关于这些模式的信息。

先决条件

在开始之前,请确保您具备以下条件:

  1. Airbyte instance, either 开源, 自我管理, or .
  2. Running instance of Qdrant. It has to be accessible by URL from the machine where Airbyte is running. You can follow the 安装指南 to set up Qdrant.

设置 Qdrant 作为目的地

一旦你有一个运行的Airbyte实例,你可以直接在用户界面中设置Qdrant作为目的地。 Airbyte的Qdrant目的地与Qdrant中的单个集合连接。

Airbyte Qdrant destination

文本处理

Airbyte 有一些内置机制可以将您的文本转换为嵌入。您可以选择在计算嵌入之前如何将字段分块,还可以选择哪些字段应用于创建点负载。

Processing settings

嵌入

您可以选择用于计算嵌入的模型。目前,Airbyte 支持多种模型,包括 OpenAI 和 Cohere。

Embeddings settings

使用数据源中的一些预计算嵌入也是可能的。在这种情况下,您可以传递包含嵌入及其维度的字段名称。

Precomputed embeddings settings

Qdrant 连接详情

最后,我们可以配置目标Qdrant实例和集合。如果您使用内置的身份验证机制,这里可以传递令牌。

Qdrant connection details

一旦您确认创建目的地,Airbyte 将测试指定的 Qdrant 集群是否可访问,并可能用作目的地。

设置连接

Airbyte 将源和目标组合成一个称为连接的单一实体。一旦你配置了一个目标和一个源,你就可以在它们之间创建一个连接。无论你使用什么源,只要 Airbyte 支持它,过程都非常简单,但取决于你使用的源。

Airbyte connection

进一步阅读

这个页面有用吗?

感谢您的反馈!🙏

我们很抱歉听到这个消息。😔 你可以在GitHub上编辑这个页面,或者创建一个GitHub问题。