内容同步
edit内容同步
edit弹性连接器有两种类型的内容同步:
全量同步
edit我们建议在修改同步规则时运行一次完整同步
完全同步会将第三方数据源中的所有文档同步到 Elasticsearch 中。
它还会删除Elasticsearch中在第三方数据源中不再存在的任何文档。
完全同步,根据定义,比增量同步耗时更长,但它确保了完整的数据一致性。
所有连接器均提供完整同步。
增量同步
edit增量同步仅同步自上次完整或增量同步以来的数据变化。
增量同步仅在初始全量同步成功完成后可用。否则,增量同步将失败。
增量同步性能
edit在增量同步期间,您的连接器仍然会从第三方数据源获取所有数据。 如果数据包含时间戳,连接器框架会比较文档ID和时间戳。 如果Elasticsearch中已存在具有相同时间戳的文档,则该文档不需要更新,也不会被发送到Elasticsearch。
增量同步性能的决定因素是摄取的数据的原始量。 对于小量的数据,使用增量同步的性能提升将可以忽略不计。 对于大量的数据,性能影响可能会非常大。 此外,增量同步不太可能被Elasticsearch限制,因此在Elasticsearch负载较重时,它的性能优于全量同步。
一个具有限流和低吞吐量但存储在Elasticsearch中的数据量很少的第三方数据源,例如GitHub、Jira或Confluence,不会从增量同步中看到显著的性能提升。
然而,一个快速、可访问的第三方数据源,如存储大量数据在Elasticsearch中的Azure Blob Storage、Google Drive或S3,可以通过增量同步显著提高性能。
SharePoint Online 连接器的增量同步使用特定的逻辑。 所有其他连接器使用相同的共享连接器框架逻辑进行增量同步。
增量同步可用性
edit以下连接器支持增量同步: