Shortcuts

torcharrow.DataFrame

torcharrow.DataFrame 是一个基于 Apache Arrow 列式内存格式的 Python DataFrame 库,用于加载、连接、聚合、过滤以及其他数据操作。torcharrow.DataFrame 还提供了一个类似于 Pandas 的 API,自然地融入 Python 机器学习生态系统,并且对数据科学家和机器学习工程师来说非常熟悉,因此他们可以使用它来表达机器学习中的表格数据工作流程,例如特征工程、训练和推理预处理。

DataFrame 类和通用 API

class torcharrow.DataFrame
DataFrame.columns

DataFrame 的列标签。

DataFrame.dtype

torcharrow.Column 的数据类型

DataFrame.device

设备上分配或将分配torcharrow.Column

DataFrame.length

返回包括空值的行数

DataFrame.head

返回前n行。

DataFrame.tail

返回最后n行。

DataFrame.describe

生成描述性统计。

DataFrame.drop

返回没有移除列的DataFrame。

DataFrame.rename

返回带有重命名列名的DataFrame。

DataFrame.reorder

(实验性 API) 返回具有指定顺序列的 DataFrame。

DataFrame.append

返回带有附加值的列/数据框。

DataFrame.isin

检查数据框中的每个元素是否包含在值中。

功能API

DataFrame.map

根据输入对应关系映射行。

DataFrame.filter

选择谓词为True的行。

DataFrame.flatmap

根据输入对应关系将行映射到行列表,如果结果类型 != 项目类型,则需要 dtype。

DataFrame.transform

类似于 map(),但每次调用可调用对象时处理的是小批量的行。

关系型API

DataFrame.select

类似于SQL的SELECT

DataFrame.where

类似于SQL的where(不是Pandas的where)

DataFrame.sort

按升序或降序对列/数据框进行排序。

数据清洗

DataFrame.fill_null

使用指定的方法填充空值。

DataFrame.drop_null

返回一个删除了包含任何或全部空值的行的列/框架。

DataFrame.drop_duplicates

(实验性API) 从行/帧中移除重复值,但保留第一个、最后一个或不保留

转换

DataFrame.to_arrow

将自身转换为箭头表

DataFrame.to_tensor

转换为PyTorch容器(Tensor、PackedList、PackedMap等)

DataFrame.to_pylist

转换为纯Python容器(标量或容器的列表)

DataFrame.to_pandas

将自身转换为Pandas DataFrame

统计

DataFrame.min

返回每列非空值的最小值。

DataFrame.max

返回每列中非空值的最大值。

DataFrame.sum

返回每列非空值的总和。

DataFrame.mean

返回每列非空值的平均值。

DataFrame.std

返回每列非空值的标准差。

DataFrame.median

返回每列非空值的中位数。

DataFrame.all

返回所有非空元素是否为真

DataFrame.any

返回是否有任何非空元素为真

算术运算

DataFrame.log

返回一个DataFrame,其中包含每个元素的自然对数值。