输入/输出#

合成数据#

`range`	从一个整数范围 [0..n) 创建一个 `Dataset`。
`range_tensor`	从范围 [0...n] 创建一个具有指定形状的 `Dataset` 张量。

Python 对象#

from_items

从本地 Python 对象列表创建一个 Dataset。

Parquet#

`read_parquet`	从 parquet 文件创建一个 `Dataset`。
`read_parquet_bulk`	从 parquet 文件创建 `Dataset` 而不读取元数据。
`Dataset.write_parquet`	将 `Dataset` 写入到指定 `path` 下的 parquet 文件中。

CSV#

`read_csv`	从 CSV 文件创建一个 `Dataset`。
`Dataset.write_csv`	将 `Dataset` 写入 CSV 文件。

JSON#

`read_json`	从 JSON 和 JSONL 文件创建 `Dataset`。
`Dataset.write_json`	将 `Dataset` 写入 JSON 和 JSONL 文件。

文本#

read_text

从存储在文本文件中的行创建一个 Dataset。

Avro#

read_avro

从存储在Avro文件中的记录创建一个 Dataset。

图像#

`read_images`	从图像文件创建一个 `Dataset`。
`Dataset.write_images`	将 `Dataset` 写入图像。

二进制#

read_binary_files

从任意内容的二进制文件创建一个 Dataset。

TFRecords#

`read_tfrecords`	从包含 tf.train.Example 消息的 TFRecord 文件创建一个 `Dataset`。
`Dataset.write_tfrecords`	将 `Dataset` 写入 TFRecord 文件。
`TFXReadOptions`	在使用 TFX 读取 TFRecord 文件时指定读取选项。

Pandas#

`from_pandas`	从 pandas 数据框列表创建一个 `Dataset`。
`from_pandas_refs`	从Ray对象引用列表创建一个 `Dataset` 到pandas数据框。
`Dataset.to_pandas`	将这个 `Dataset` 转换为一个单独的 pandas DataFrame。
`Dataset.to_pandas_refs`	将此 `Dataset` 转换为分布式的 Pandas 数据框集合。

NumPy#

`read_numpy`	从numpy文件创建一个Arrow数据集。
`from_numpy`	从NumPy ndarray列表创建一个 `Dataset`。
`from_numpy_refs`	从Ray对象引用列表创建一个 `Dataset` 到NumPy ndarrays。
`Dataset.write_numpy`	将 `Dataset` 的一列写入 .npy 文件。
`Dataset.to_numpy_refs`	将此 `Dataset` 转换为分布式的 NumPy ndarray 集合或 NumPy ndarray 的字典。

箭头#

`from_arrow`	从 PyArrow 表的列表创建一个 `Dataset`。
`from_arrow_refs`	从 Ray 对象引用列表创建一个 `Dataset` 到 PyArrow 表。
`Dataset.to_arrow_refs`	将这个 `Dataset` 转换为一组分布式的 PyArrow 表。

MongoDB#

`read_mongo`	从 MongoDB 数据库创建一个 `Dataset`。
`Dataset.write_mongo`	将 `Dataset` 写入 MongoDB 数据库。

BigQuery#

`read_bigquery`(project_id[, dataset, query, ...])	从 BigQuery 创建数据集。
`Dataset.write_bigquery`(project_id, dataset)	将数据集写入 BigQuery 数据集表。

SQL 数据库#

read_sql

从一个提供 Python DB API2 兼容连接器的数据库中读取。

Dataset.write_sql

写入一个提供 Python DB API2 兼容连接器的数据库。

Databricks#

read_databricks_tables

读取 Databricks unity 目录表或 Databricks SQL 执行结果。

冰山#

read_iceberg

从 Iceberg 表创建一个 Dataset。

Lance#

read_lance

从 Lance 数据集创建一个 Dataset。

Dask#

from_dask

从 Dask DataFrame 创建一个 Dataset。

Dataset.to_dask

将此 Dataset 转换为 Dask DataFrame。

Spark#

from_spark

从 Spark DataFrame 创建一个 Dataset。

Dataset.to_spark

将这个 Dataset 转换为 Spark DataFrame。

Modin#

from_modin

从 Modin DataFrame 创建一个 Dataset。

Dataset.to_modin

将此 Dataset 转换为 Modin DataFrame。

火星#

from_mars

从 Mars DataFrame 创建一个 Dataset。

Dataset.to_mars

将这个 Dataset 转换为 Mars DataFrame。

Torch#

from_torch

从 Torch 数据集创建一个 Dataset。

Hugging Face#

from_huggingface

从 Hugging Face Datasets Dataset 创建一个 MaterializedDataset 或从 Hugging Face Datasets IterableDataset 创建一个 Dataset。

TensorFlow#

from_tf

从 TensorFlow 数据集创建一个 Dataset。

WebDataset#

read_webdataset

从 WebDataset 文件创建一个 Dataset。

数据源 API#

`read_datasource`	从自定义的 `Datasource` 读取流。
`Datasource`	用于定义自定义 `Dataset` 数据源的接口。
`ReadTask`	用于从 `Dataset` 读取块的函数。
`datasource.FilenameProvider`	在编写 `Dataset` 时生成文件名。

Datasink API#

`Dataset.write_datasink`	将数据集写入自定义的 `Datasink`。
`Datasink`	用于定义写相关逻辑的接口。
`datasource.RowBasedFileDatasink`	一个将一行写入每个文件的数据接收器。
`datasource.BlockBasedFileDatasink`	一个将多行写入每个文件的数据接收器。
`datasource.FileBasedDatasource`	基于文件的数据源，用于读取文件。

分区 API#

`datasource.Partitioning`	用于描述基于路径的分区方案。
`datasource.PartitionStyle`	支持的数据集分区样式。
`datasource.PathPartitionParser`	基于路径的分区格式的分区解析器。
`datasource.PathPartitionFilter`	基于路径的分区格式的分区过滤器。

MetadataProvider API#

`datasource.FileMetadataProvider`	提供单个数据集块文件元数据的抽象可调用对象。
`datasource.BaseFileMetadataProvider`	提供元数据的抽象可调用对象，用于重用基类 `prepare_read()` 方法的 `FileBasedDatasource` 实现。
`datasource.DefaultFileMetadataProvider`	默认元数据提供者，用于重用基类 `prepare_read` 方法的 `FileBasedDatasource` 实现。
`datasource.ParquetMetadataProvider`	为 Arrow Parquet 文件片段提供块元数据。
`datasource.FastFileMetadataProvider`	用于 `FileBasedDatasource` 实现的快速元数据提供者。