Shortcuts

torcharrow.Column

一个torcharrow.Column是一个一维的torch.Tensor类似的数据结构,包含单一数据类型的元素。它还支持非数值类型,如字符串、列表、结构体。

数据类型

TorchArrow 定义了以下列数据类型,这些类型位于模块 torcharrow.dtypes 中 (在下面的表格中缩写为 dt):

数据类型

数据类型

32位浮点数

dt.float32dt.Float32(nullable)

64位浮点数

dt.float64dt.Float64(nullable)

8位有符号整数

dt.int8dt.Int8(nullable)

16位有符号整数

dt.int16dt.Int16(nullable)

32位有符号整数

dt.int32dt.Int32(nullable)

64位有符号整数

dt.int64dt.Int64(nullable)

布尔值

dt.booleandt.Boolean(nullable)

字符串

dt.stringdt.String(nullable)

列表

dt.List(item_dtype, nullable)

结构体

dt.Struct(fields, nullable)

列类参考

class torcharrow.Column
Column.dtype

torcharrow.Column 的数据类型

Column.device

设备上分配或将分配torcharrow.Column

Column.length

返回包括空值的行数

Column.null_count

返回空值的数量

Column.head

返回前n行。

Column.tail

返回最后n行。

Column.cast

将列转换为给定的数据类型

Column.is_valid_at

(实验性API) 返回索引i处的数据是否有效,即非空

Column.append

返回带有附加值的列/数据框。

Column.isin

检查列中的每个元素是否包含在值中。

Column.all

返回所有非空元素是否为真

Column.any

返回是否有任何非空元素为真

Column.map

根据输入对应关系映射行。

Column.filter

选择谓词为True的行。

Column.flatmap

根据输入对应关系将行映射到行列表,如果结果类型 != 项目类型,则需要 dtype。

Column.transform

类似于 map(),但每次调用可调用对象时处理的是小批量的行。

Column.fill_null

使用指定的方法填充空值。

Column.drop_null

返回一个删除了包含任何或全部空值的行的列/框架。

Column.drop_duplicates

(实验性API) 从行/帧中移除重复值,但保留第一个、最后一个或不保留

Column.to_arrow

将自身转换为箭头数组

Column.to_tensor

转换为PyTorch容器(Tensor, PackedList, PackedMap等)

Column.to_pylist

转换为纯Python容器(标量或容器的列表)

Column.to_pandas

将自身转换为Pandas Series

NumericalColumn 类参考

class torcharrow.NumericalColumn

NumericalColumn.abs

序列中每个元素的绝对值。

NumericalColumn.ceil

将每个值向上舍入到最小的整数

NumericalColumn.floor

将每个值向下舍入到最大的整数值

NumericalColumn.round

将数据中的每个值四舍五入到指定的小数位数。

NumericalColumn.log

返回一个新列,包含元素的自然对数

NumericalColumn.describe

生成描述性统计。

NumericalColumn.min

返回非空值的最小值。

NumericalColumn.max

返回非空值的最大值。

NumericalColumn.sum

返回非空值的总和。

NumericalColumn.mean

返回非空值的平均值。

NumericalColumn.std

返回数据的标准差。

NumericalColumn.median

返回数据中的值的中位数。

StringColumn 类参考

class torcharrow.StringColumn

istring_column.StringMethods.length

计算列中每个元素的长度。

istring_column.StringMethods.slice

从列中的每个元素中切片子字符串。

istring_column.StringMethods.split

围绕给定的分隔符/定界符拆分字符串。

istring_column.StringMethods.strip

移除前导和尾随的空白字符。

istring_column.StringMethods.isalpha

如果字符串是字母字符串,则返回True,否则返回False。

istring_column.StringMethods.isnumeric

如果所有字符都是数字,则返回 True,否则返回 False。

istring_column.StringMethods.isalnum

如果字符串中的所有字符都是字母数字(字母或数字),则返回True,否则返回False。

istring_column.StringMethods.isdigit

如果字符串中的所有字符都是数字,则返回True,否则返回False。

istring_column.StringMethods.isdecimal

如果字符串仅包含十进制数字(从0到9),则返回True,否则返回False。

istring_column.StringMethods.isspace

如果字符串中的所有字符都是空白字符,则返回True,否则返回False。

istring_column.StringMethods.islower

如果非空字符串为小写,则返回True,否则返回False。

istring_column.StringMethods.isupper

如果非空字符串为大写,则返回True,否则返回False。

istring_column.StringMethods.istitle

如果字符串的每个单词都以大写字母开头,则返回True,否则返回False。

istring_column.StringMethods.lower

将列中的字符串转换为小写。

istring_column.StringMethods.upper

将列中的字符串转换为大写。

istring_column.StringMethods.startswith

测试每个字符串元素的开头是否匹配一个模式。

istring_column.StringMethods.endswith

测试每个字符串元素的末尾是否匹配一个模式。

istring_column.StringMethods.count

计算列中每个字符串中模式的出现次数

istring_column.StringMethods.find

返回列中每个字符串的最低索引。

istring_column.StringMethods.replace

替换列中每个出现的模式。

istring_column.StringMethods.match

确定每个字符串是否匹配正则表达式

istring_column.StringMethods.contains

测试每个项目是否包含在字符串中的模式;返回一个布尔值

istring_column.StringMethods.findall

为每个项目查找模式的所有出现(参见 re.findall())

ListColumn 类参考

class torcharrow.ListColumn

ilist_column.ListMethods.length

计算列中每个元素的长度。

ilist_column.ListMethods.slice

从列中的每个元素中切片子列表

ilist_column.ListMethods.vmap

(实验性API) 向量化映射。