输入/输出#

合成数据#

range

从一个整数范围 [0..n) 创建一个 Dataset

range_tensor

从范围 [0...n] 创建一个具有指定形状的 Dataset 张量。

Python 对象#

from_items

从本地 Python 对象列表创建一个 Dataset

Parquet#

read_parquet

从 parquet 文件创建一个 Dataset

read_parquet_bulk

从 parquet 文件创建 Dataset 而不读取元数据。

Dataset.write_parquet

Dataset 写入到指定 path 下的 parquet 文件中。

CSV#

read_csv

从 CSV 文件创建一个 Dataset

Dataset.write_csv

Dataset 写入 CSV 文件。

JSON#

read_json

从 JSON 和 JSONL 文件创建 Dataset

Dataset.write_json

Dataset 写入 JSON 和 JSONL 文件。

文本#

read_text

从存储在文本文件中的行创建一个 Dataset

Avro#

read_avro

从存储在Avro文件中的记录创建一个 Dataset

图像#

read_images

从图像文件创建一个 Dataset

Dataset.write_images

Dataset 写入图像。

二进制#

read_binary_files

从任意内容的二进制文件创建一个 Dataset

TFRecords#

read_tfrecords

从包含 tf.train.Example 消息的 TFRecord 文件创建一个 Dataset

Dataset.write_tfrecords

Dataset 写入 TFRecord 文件。

TFXReadOptions

在使用 TFX 读取 TFRecord 文件时指定读取选项。

Pandas#

from_pandas

从 pandas 数据框列表创建一个 Dataset

from_pandas_refs

从Ray对象引用列表创建一个 Dataset 到pandas数据框。

Dataset.to_pandas

将这个 Dataset 转换为一个单独的 pandas DataFrame。

Dataset.to_pandas_refs

将此 Dataset 转换为分布式的 Pandas 数据框集合。

NumPy#

read_numpy

从numpy文件创建一个Arrow数据集。

from_numpy

从NumPy ndarray列表创建一个 Dataset

from_numpy_refs

从Ray对象引用列表创建一个 Dataset 到NumPy ndarrays。

Dataset.write_numpy

Dataset 的一列写入 .npy 文件。

Dataset.to_numpy_refs

将此 Dataset 转换为分布式的 NumPy ndarray 集合或 NumPy ndarray 的字典。

箭头#

from_arrow

从 PyArrow 表的列表创建一个 Dataset

from_arrow_refs

从 Ray 对象引用列表创建一个 Dataset 到 PyArrow 表。

Dataset.to_arrow_refs

将这个 Dataset 转换为一组分布式的 PyArrow 表。

MongoDB#

read_mongo

从 MongoDB 数据库创建一个 Dataset

Dataset.write_mongo

Dataset 写入 MongoDB 数据库。

BigQuery#

read_bigquery(project_id[, dataset, query, ...])

从 BigQuery 创建数据集。

Dataset.write_bigquery(project_id, dataset)

将数据集写入 BigQuery 数据集表。

SQL 数据库#

read_sql

从一个提供 Python DB API2 兼容 连接器的 数据库中读取。

Dataset.write_sql

写入一个提供 Python DB API2 兼容 连接器的数据库。

Databricks#

read_databricks_tables

读取 Databricks unity 目录表或 Databricks SQL 执行结果。

Delta 共享#

read_delta_sharing_tables

从 Delta Sharing 表中读取数据。

冰山#

read_iceberg

从 Iceberg 表创建一个 Dataset

Lance#

read_lance

Lance 数据集 创建一个 Dataset

Dask#

from_dask

Dask DataFrame 创建一个 Dataset

Dataset.to_dask

将此 Dataset 转换为 Dask DataFrame

Spark#

from_spark

Spark DataFrame 创建一个 Dataset

Dataset.to_spark

将这个 Dataset 转换为 Spark DataFrame

Modin#

from_modin

Modin DataFrame 创建一个 Dataset

Dataset.to_modin

将此 Dataset 转换为 Modin DataFrame

火星#

from_mars

Mars DataFrame 创建一个 Dataset

Dataset.to_mars

将这个 Dataset 转换为 Mars DataFrame

Torch#

from_torch

Torch 数据集 创建一个 Dataset

Hugging Face#

from_huggingface

Hugging Face Datasets Dataset 创建一个 MaterializedDataset 或从 Hugging Face Datasets IterableDataset 创建一个 Dataset

TensorFlow#

from_tf

TensorFlow 数据集 创建一个 Dataset

WebDataset#

read_webdataset

WebDataset 文件创建一个 Dataset

数据源 API#

read_datasource

从自定义的 Datasource 读取流。

Datasource

用于定义自定义 Dataset 数据源的接口。

ReadTask

用于从 Dataset 读取块的函数。

datasource.FilenameProvider

在编写 Dataset 时生成文件名。

Datasink API#

Dataset.write_datasink

将数据集写入自定义的 Datasink

Datasink

用于定义写相关逻辑的接口。

datasource.RowBasedFileDatasink

一个将一行写入每个文件的数据接收器。

datasource.BlockBasedFileDatasink

一个将多行写入每个文件的数据接收器。

datasource.FileBasedDatasource

基于文件的数据源,用于读取文件。

分区 API#

datasource.Partitioning

用于描述基于路径的分区方案。

datasource.PartitionStyle

支持的数据集分区样式。

datasource.PathPartitionParser

基于路径的分区格式的分区解析器。

datasource.PathPartitionFilter

基于路径的分区格式的分区过滤器。

MetadataProvider API#

datasource.FileMetadataProvider

提供单个数据集块文件元数据的抽象可调用对象。

datasource.BaseFileMetadataProvider

提供元数据的抽象可调用对象,用于重用基类 prepare_read() 方法的 FileBasedDatasource 实现。

datasource.DefaultFileMetadataProvider

默认元数据提供者,用于重用基类 prepare_read 方法的 FileBasedDatasource 实现。

datasource.ParquetMetadataProvider

为 Arrow Parquet 文件片段提供块元数据。

datasource.FastFileMetadataProvider

用于 FileBasedDatasource 实现的快速元数据提供者。