文本#

class pylibcudf.io.text.DataChunkSource#

multibyte_split的数据源

Parameters:
datastr

文件名或数据本身。

class pylibcudf.io.text.ParseOptions(byte_range=None, *, strip_delimiters=False)#

解析选项用于 multibyte_split

Parameters:
byte_rangelist | tuple, default None

只有从该字节范围内开始的行才会成为输出列的一部分。

strip_delimitersbool, default True

是否应从输出列中去除行尾的分隔符。

pylibcudf.io.text.make_source(unicode data) DataChunkSource#

创建一个能够生成给定字符串的设备缓冲视图的数据源。

Parameters:
datastr

要作为数据块源公开的主机数据。

Returns:
DataChunkSource

提供的主机数据的数据块源。

pylibcudf.io.text.make_source_from_bgzip_file(unicode filename, int virtual_begin=-1, int virtual_end=-1) DataChunkSource#

创建一个能够生成带有虚拟记录偏移量的BGZIP压缩文件的设备缓冲视图的数据源。

Parameters:
filenamestr

要作为数据块源暴露的BGZIP压缩文件的文件名。

virtual_beginint

要读取的第一个字节的虚拟(Tabix)偏移量。其高48位描述压缩文件中的偏移量,低16位描述块内偏移量。

virtual_endint, default None

虚拟(Tabix)偏移量,指向要读取的最后一个字节之后的位置

Returns:
DataChunkSource

提供文件名的数据块源。

pylibcudf.io.text.make_source_from_file(unicode filename) DataChunkSource#

创建一个能够生成文件的设备缓冲视图的数据源。

Parameters:
filenamestr

要作为数据块源暴露的文件的文件名。

Returns:
DataChunkSource

提供文件名的数据块源。

pylibcudf.io.text.multibyte_split(DataChunkSource source, unicode delimiter, ParseOptions options=None) Column#

使用多字节分隔符将源文本拆分为字符串列。

详情请参见 cudf::io::text::multibyte_split()

Parameters:
source

源字符串。

delimiterstr

UTF-8 编码的字符串,用于在源中查找偏移量。

optionsParseOptions

使用的解析选项(包括字节范围)。

Returns:
Column

通过在相关字节范围内按分隔符拆分源字符串找到的字符串。