文本#
- class pylibcudf.io.text.DataChunkSource#
multibyte_split的数据源
- Parameters:
- datastr
文件名或数据本身。
- class pylibcudf.io.text.ParseOptions(byte_range=None, *, strip_delimiters=False)#
解析选项用于 multibyte_split
- Parameters:
- byte_rangelist | tuple, default None
只有从该字节范围内开始的行才会成为输出列的一部分。
- strip_delimitersbool, default True
是否应从输出列中去除行尾的分隔符。
- pylibcudf.io.text.make_source(unicode data) DataChunkSource#
创建一个能够生成给定字符串的设备缓冲视图的数据源。
- Parameters:
- datastr
要作为数据块源公开的主机数据。
- Returns:
- DataChunkSource
提供的主机数据的数据块源。
- pylibcudf.io.text.make_source_from_bgzip_file(unicode filename, int virtual_begin=-1, int virtual_end=-1) DataChunkSource#
创建一个能够生成带有虚拟记录偏移量的BGZIP压缩文件的设备缓冲视图的数据源。
- Parameters:
- filenamestr
要作为数据块源暴露的BGZIP压缩文件的文件名。
- virtual_beginint
要读取的第一个字节的虚拟(Tabix)偏移量。其高48位描述压缩文件中的偏移量,低16位描述块内偏移量。
- virtual_endint, default None
虚拟(Tabix)偏移量,指向要读取的最后一个字节之后的位置
- Returns:
- DataChunkSource
提供文件名的数据块源。
- pylibcudf.io.text.make_source_from_file(unicode filename) DataChunkSource#
创建一个能够生成文件的设备缓冲视图的数据源。
- Parameters:
- filenamestr
要作为数据块源暴露的文件的文件名。
- Returns:
- DataChunkSource
提供文件名的数据块源。
- pylibcudf.io.text.multibyte_split(DataChunkSource source, unicode delimiter, ParseOptions options=None) Column#
使用多字节分隔符将源文本拆分为字符串列。
详情请参见
cudf::io::text::multibyte_split()- Parameters:
- source
源字符串。
- delimiterstr
UTF-8 编码的字符串,用于在源中查找偏移量。
- optionsParseOptions
使用的解析选项(包括字节范围)。
- Returns:
- Column
通过在相关字节范围内按分隔符拆分源字符串找到的字符串。