CSV#

class pylibcudf.io.csv.CsvWriterOptions#

用于write_csv的设置

详情请参阅 cudf::io::csv_writer_options

方法

builder(SinkInfo sink, Table table)

创建一个CsvWriterOptionsBuilder对象

static builder(SinkInfo sink, Table table)#

创建一个CsvWriterOptionsBuilder对象

详情请参阅 cudf::io::csv_writer_options::builder()

Parameters:
sinkSinkInfo

用于写入器输出的接收器

tableTable

要写入输出的表

Returns:
CsvWriterOptionsBuilder

用于构建CsvWriterOptions的构建器

class pylibcudf.io.csv.CsvWriterOptionsBuilder#

用于构建write_csv选项的构建器

详情请参阅 cudf::io::csv_writer_options_builder

方法

build(self)

创建一个 CsvWriterOptions 对象

false_value(self, unicode val)

设置用于值 == 0 的字符串

include_header(self, bool val)

启用/禁用将标题写入CSV。

inter_column_delimiter(self, unicode delim)

设置用于分隔列值的字符。

line_terminator(self, unicode term)

设置用于分隔行的字符。

na_rep(self, unicode val)

设置用于空值的字符串。

names(self, list names)

设置可选的列名。

rows_per_chunk(self, int val)

设置每次文件写入时处理的最大行数。

true_value(self, unicode val)

设置用于值 != 0 的字符串

build(self) CsvWriterOptions#

创建一个CsvWriterOptions对象

false_value(self, unicode val) CsvWriterOptionsBuilder#

设置用于值 == 0 的字符串

Parameters:
valstr

字符串表示值 == 0

Returns:
CsvWriterOptionsBuilder

用于构建CsvWriterOptions的构建器

include_header(self, bool val) CsvWriterOptionsBuilder#

启用/禁用将标题写入csv。

Parameters:
valbool

布尔值用于启用/禁用

Returns:
CsvWriterOptionsBuilder

用于构建CsvWriterOptions的构建器

inter_column_delimiter(self, unicode delim) CsvWriterOptionsBuilder#

设置用于分隔列值的字符。

Parameters:
delimstr

用于分隔列值的字符

Returns:
CsvWriterOptionsBuilder

用于构建CsvWriterOptions的构建器

line_terminator(self, unicode term) CsvWriterOptionsBuilder#

设置用于分隔行的字符。

Parameters:
termstr

表示行终止的字符

Returns:
CsvWriterOptionsBuilder

用于构建CsvWriterOptions的构建器

na_rep(self, unicode val) CsvWriterOptionsBuilder#

设置用于空条目的字符串。

Parameters:
valstr

表示空值的字符串

Returns:
CsvWriterOptionsBuilder

用于构建CsvWriterOptions的构建器

names(self, list names) CsvWriterOptionsBuilder#

设置可选的列名。

Parameters:
nameslist[str]

列名

Returns:
CsvWriterOptionsBuilder

用于构建CsvWriterOptions的构建器

rows_per_chunk(self, int val) CsvWriterOptionsBuilder#

设置每次文件写入时处理的最大行数。

Parameters:
valint

每块的行数

Returns:
CsvWriterOptionsBuilder

用于构建CsvWriterOptions的构建器

true_value(self, unicode val) CsvWriterOptionsBuilder#

设置用于值 != 0 的字符串

Parameters:
valstr

用于表示值 != 0 的字符串

Returns:
CsvWriterOptionsBuilder

用于构建CsvWriterOptions的构建器

pylibcudf.io.csv.read_csv(SourceInfo source_info, *, compression_type compression=compression_type.AUTO, size_t byte_range_offset=0, size_t byte_range_size=0, list col_names=None, unicode prefix=u'', bool mangle_dupe_cols=True, list usecols=None, size_type nrows=-1, size_type skiprows=0, size_type skipfooter=0, size_type header=0, unicode lineterminator=u'\n', unicode delimiter=None, unicode thousands=None, unicode decimal=u'.', unicode comment=None, bool delim_whitespace=False, bool skipinitialspace=False, bool skip_blank_lines=True, quote_style quoting=quote_style.MINIMAL, unicode quotechar=u'"', bool doublequote=True, list parse_dates=None, list parse_hex=None, dtypes=None, list true_values=None, list false_values=None, list na_values=None, bool keep_default_na=True, bool na_filter=True, bool dayfirst=False)#

将CSV文件读取到TableWithMetadata中。

详情请参见read_csv()

Parameters:
source_infoSourceInfo

用于读取CSV文件的SourceInfo。

compressioncompression_type, default CompressionType.AUTO

CSV源的压缩格式。

byte_range_offsetsize_type, default 0

从源开始跳过的字节数。

byte_range_sizesize_type, default 0

要读取的字节数。默认情况下,将读取所有字节。

col_nameslist, default None

要使用的列名。

prefixstring, default ‘’

应用于列名称的前缀。

mangle_dupe_colsbool, default True

如果为True,重命名重复的列名。

usecolslist, default None

指定要读取的列的字符串列名/整数列索引。

nrowssize_type, default -1

要读取的行数。

skiprowssize_type, default 0

在开始读取之前要跳过的行数

skipfootersize_type, default 0

从末尾跳过的行数

headersize_type, default 0

将用于标题名称的行的索引。 传递-1以使用默认列名。

lineterminatorstr, default ‘n’

用于确定行尾的字符。

delimiterstr, default “,”

用于分隔行中字段的字符。

thousandsstr, default None

用作千位分隔符的字符。 不能与分隔符匹配。

decimalstr, default ‘.’

用作小数分隔符的字符。 不能与分隔符匹配。

commentstr, default None

用于标识注释行开头的字符。 (将被读取器跳过)

delim_whitespacebool, default False

如果为True,将空白字符视为字段分隔符。

skipinitialspacebool, default False

如果为True,跳过分隔符后的空白。

skip_blank_linesbool, default True

如果为True,忽略空行(否则行值将被解析为null)。

quotingQuoteStyle, default QuoteStyle.MINIMAL

输入CSV数据中使用的引用风格。其中之一是 { QuoteStyle.MINIMAL, QuoteStyle.ALL, QuoteStyle.NONNUMERIC, QuoteStyle.NONE }

quotecharstr, default ‘”’

用于指示引用的字符。

doublequotebool, default True

如果为True,值内的引号将被双引号包围。

parse_dateslist, default None

一个整数列索引/字符串列名的列表,用于读取为日期时间。

parse_hexlist, default None

要读取为十六进制的列的整数列索引/字符串列名称列表。

dtypesUnion[Dict[str, DataType], List[DataType]], default None

数据类型列表或将列名映射到数据类型的字典。

true_valuesList[str], default None

识别为True的额外值列表。

false_valuesList[str], default None

识别为False的其他值的列表。

na_valuesList[str], default None

识别为null的额外值列表。

keep_default_nabool, default True

是否保留内置的默认N/A值。

na_filterbool, default True

是否检测缺失值。如果为False,可以提高性能。

dayfirstbool, default False

如果为True,将日期解释为DD/MM格式。

Returns:
TableWithMetadata

读取的表及其对应的元数据(列名)。

pylibcudf.io.csv.write_csv(CsvWriterOptions options) void#

写入CSV格式。

要写入的表、输出路径和选项由options对象封装。

详情请参阅write_csv()

Parameters:
options: CsvWriterOptions

控制写入行为的设置