torcharrow.DataFrame¶
torcharrow.DataFrame 是一个基于 Apache Arrow 列式内存格式的 Python DataFrame 库,用于加载、连接、聚合、过滤以及其他数据操作。torcharrow.DataFrame 还提供了一个类似于 Pandas 的 API,自然地融入 Python 机器学习生态系统,并且对数据科学家和机器学习工程师来说非常熟悉,因此他们可以使用它来表达机器学习中的表格数据工作流程,例如特征工程、训练和推理预处理。
DataFrame 类和通用 API¶
- class torcharrow.DataFrame¶
- DataFrame.columns¶
DataFrame 的列标签。
- DataFrame.dtype¶
torcharrow.Column的数据类型
- DataFrame.device¶
设备上分配或将分配
torcharrow.Column。
- DataFrame.length¶
返回包括空值的行数
返回前n行。 |
|
返回最后n行。 |
|
生成描述性统计。 |
|
返回没有移除列的DataFrame。 |
|
返回带有重命名列名的DataFrame。 |
|
(实验性 API) 返回具有指定顺序列的 DataFrame。 |
|
返回带有附加值的列/数据框。 |
|
检查数据框中的每个元素是否包含在值中。 |
功能API¶
根据输入对应关系映射行。 |
|
选择谓词为True的行。 |
|
根据输入对应关系将行映射到行列表,如果结果类型 != 项目类型,则需要 dtype。 |
|
类似于 map(),但每次调用可调用对象时处理的是小批量的行。 |
关系型API¶
类似于SQL的SELECT。 |
|
类似于SQL的where(不是Pandas的where) |
|
按升序或降序对列/数据框进行排序。 |
数据清洗¶
使用指定的方法填充空值。 |
|
返回一个删除了包含任何或全部空值的行的列/框架。 |
|
(实验性API) 从行/帧中移除重复值,但保留第一个、最后一个或不保留 |
转换¶
将自身转换为箭头表 |
|
转换为PyTorch容器(Tensor、PackedList、PackedMap等) |
|
转换为纯Python容器(标量或容器的列表) |
|
将自身转换为Pandas DataFrame |
统计¶
返回每列非空值的最小值。 |
|
返回每列中非空值的最大值。 |
|
返回每列非空值的总和。 |
|
返回每列非空值的平均值。 |
|
返回每列非空值的标准差。 |
|
返回每列非空值的中位数。 |
|
返回所有非空元素是否为真 |
|
返回是否有任何非空元素为真 |
算术运算¶
返回一个DataFrame,其中包含每个元素的自然对数值。 |