输入/输出#

CSV#

read_csv(filepath_or_buffer[, sep, ...])

将逗号分隔值(CSV)数据集加载到DataFrame中

DataFrame.to_csv([path_or_buf, sep, na_rep, ...])

将数据框写入csv文件格式。

文本#

read_text(filepath_or_buffer[, delimiter, ...])

文本数据源的配置对象

JSON#

read_json(path_or_buf[, engine, orient, ...])

将JSON数据集加载到DataFrame中

DataFrame.to_json([path_or_buf])

将 cuDF 对象转换为 JSON 字符串。

Parquet#

read_parquet(filepath_or_buffer[, engine, ...])

将Parquet数据集加载到DataFrame中

DataFrame.to_parquet(path[, engine, ...])

将DataFrame写入parquet格式。

cudf.io.parquet.read_parquet_metadata(...)

读取Parquet文件的元数据和架构

cudf.io.parquet.ParquetDatasetWriter(path, ...)

逐步写入一个parquet文件或数据集

cudf.io.parquet.ParquetDatasetWriter.close([...])

关闭所有打开的文件,并可选地将页脚元数据作为二进制数据块返回

cudf.io.parquet.ParquetDatasetWriter.write_table(df)

将数据框写入文件/数据集

ORC#

read_orc(filepath_or_buffer[, engine, ...])

将ORC数据集加载到DataFrame中

DataFrame.to_orc(fname[, compression, ...])

将DataFrame写入ORC格式。

HDFStore: PyTables (HDF5)#

read_hdf(path_or_buf, *args, **kwargs)

从存储中读取,如果打开了则关闭它。

DataFrame.to_hdf(path_or_buf, key, *args, ...)

使用HDFStore将包含的数据写入HDF5文件。

警告

HDF读取器和写入器未进行GPU加速。这些目前通过Pandas使用CPU。 未来可能会进行GPU加速。

羽毛#

read_feather(path, *args, **kwargs)

从文件路径加载一个feather对象,返回一个DataFrame。

DataFrame.to_feather(path, *args, **kwargs)

将DataFrame写入feather格式。

警告

Feather 读取器和写入器不支持 GPU 加速。目前它们通过 Pandas 使用 CPU。未来可能会支持 GPU 加速。

Avro#

read_avro(filepath_or_buffer[, columns, ...])

将Avro数据集加载到DataFrame中