Delta Lake API接口

注意

一些Delta Lake API仍在不断演进,在API文档中会标注演进中的限定词或注解。

Delta Spark

Delta Spark 是一个使用 Apache Spark™ 读写 Delta 表的库。对于 Delta 表的大多数读写操作,您可以使用 Apache Spark 读取器和写入器 API。示例请参阅 表批量读写表流式读写

然而,某些操作是Delta Lake特有的,必须使用Delta Lake API。具体示例请参阅表实用程序命令

Delta Kernel

Delta Kernel 是一个用于操作 Delta 表的库。具体来说,它提供了简单而专注的 API 来读写 Delta 表,而无需理解 Delta 协议的细节。您可以使用该库执行以下操作:

  • 从您的应用程序中读取Delta表。

  • 为分布式引擎(如Apache Spark™、Apache Flink或Trino)构建连接器,用于读取海量Delta表。

更多详情请参考此处

Delta Rust

允许Rust(通过Python绑定)对Delta表进行底层访问,旨在与数据处理框架如datafusionballistarust-dataframevega等配合使用。

Delta Standalone

警告

Delta Standalone已被弃用,推荐使用Delta Kernel,它支持通过高级功能读写Delta表。

Delta Standalone,之前称为Delta Standalone Reader(DSR),是一个用于读写Delta表的JVM库。与Delta-Spark不同,该库不使用Spark来读写表,并且只有少量的传递依赖。它可用于任何无法使用Spark集群的应用程序。更多详情请参考此处