输入/输出#
合成数据#
从一个整数范围 [0..n) 创建一个 |
|
从范围 [0...n] 创建一个具有指定形状的 |
Python 对象#
从本地 Python 对象列表创建一个 |
Parquet#
从 parquet 文件创建一个 |
|
从 parquet 文件创建 |
|
将 |
CSV#
从 CSV 文件创建一个 |
|
将 |
JSON#
从 JSON 和 JSONL 文件创建 |
|
将 |
文本#
从存储在文本文件中的行创建一个 |
Avro#
从存储在Avro文件中的记录创建一个 |
图像#
从图像文件创建一个 |
|
将 |
二进制#
从任意内容的二进制文件创建一个 |
TFRecords#
从包含 tf.train.Example 消息的 TFRecord 文件创建一个 |
|
将 |
|
在使用 TFX 读取 TFRecord 文件时指定读取选项。 |
Pandas#
从 pandas 数据框列表创建一个 |
|
从Ray对象引用列表创建一个 |
|
将这个 |
|
将此 |
NumPy#
从numpy文件创建一个Arrow数据集。 |
|
从NumPy ndarray列表创建一个 |
|
从Ray对象引用列表创建一个 |
|
将 |
|
将此 |
箭头#
从 PyArrow 表的列表创建一个 |
|
从 Ray 对象引用列表创建一个 |
|
将这个 |
MongoDB#
从 MongoDB 数据库创建一个 |
|
将 |
BigQuery#
|
从 BigQuery 创建数据集。 |
|
将数据集写入 BigQuery 数据集表。 |
SQL 数据库#
从一个提供 Python DB API2 兼容 连接器的 数据库中读取。 |
|
写入一个提供 Python DB API2 兼容 连接器的数据库。 |
Databricks#
读取 Databricks unity 目录表或 Databricks SQL 执行结果。 |
Delta 共享#
从 Delta Sharing 表中读取数据。 |
冰山#
从 Iceberg 表创建一个 |
Lance#
Dask#
从 Dask DataFrame 创建一个 |
|
将此 |
Spark#
从 Spark DataFrame 创建一个 |
|
将这个 |
Modin#
从 Modin DataFrame 创建一个 |
|
将此 |
火星#
从 Mars DataFrame 创建一个 |
|
将这个 |
Torch#
Hugging Face#
从 Hugging Face Datasets Dataset 创建一个 |
TensorFlow#
从 TensorFlow 数据集 创建一个 |
WebDataset#
从 WebDataset 文件创建一个 |
数据源 API#
从自定义的 |
|
用于定义自定义 |
|
用于从 |
|
在编写 |
Datasink API#
将数据集写入自定义的 |
|
用于定义写相关逻辑的接口。 |
|
一个将一行写入每个文件的数据接收器。 |
|
一个将多行写入每个文件的数据接收器。 |
|
基于文件的数据源,用于读取文件。 |
分区 API#
用于描述基于路径的分区方案。 |
|
支持的数据集分区样式。 |
|
基于路径的分区格式的分区解析器。 |
|
基于路径的分区格式的分区过滤器。 |
MetadataProvider API#
提供单个数据集块文件元数据的抽象可调用对象。 |
|
提供元数据的抽象可调用对象,用于重用基类 |
|
默认元数据提供者,用于重用基类 |
|
为 Arrow Parquet 文件片段提供块元数据。 |
|
用于 |