Dask DataFrame API 与逻辑查询规划
内容
Dask DataFrame API 与逻辑查询规划¶
DataFrame¶
|
类似 DataFrame 的表达式集合。 |
返回一个包含每个元素绝对数值的 Series/DataFrame。 |
|
|
|
|
使用指定的连接方法将两个对象沿其轴对齐。 |
|
返回是否所有元素都为 True,可能是在某个轴上。 |
|
返回是否任何元素为 True,可能在某个轴上。 |
|
pandas.DataFrame.apply 的并行版本 |
|
将新列分配给 DataFrame。 |
|
将 pandas 对象转换为指定的数据类型 |
|
使用下一个有效观测值来填充NA/NaN值。 |
|
将 DataFrame 的列转换为类别数据类型。 |
|
计算这个 DataFrame。 |
|
复制数据框 |
|
计算列之间的成对相关性,排除NA/null值。 |
|
统计每列或每行的非NA单元格数量。 |
|
计算列之间的成对协方差,排除NA/空值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积和。 |
|
生成描述性统计数据。 |
|
元素的第一次离散差分。 |
|
|
|
|
|
|
|
从行或列中删除指定的标签。 |
|
返回删除重复行后的DataFrame。 |
|
移除缺失值。 |
返回数据类型 |
|
|
|
|
评估一个描述对DataFrame列进行操作的字符串。 |
|
将类似列表的每个元素转换为一行,复制索引值。 |
|
用最后一个有效观测值填充 NA/NaN 值,传播到下一个有效值。 |
|
使用指定方法填充 NA/NaN 值。 |
|
|
|
|
获取表示第 nth 分区的 dask DataFrame/Series。 |
|
|
使用映射器或按列的Series对DataFrame进行分组。 |
|
|
|
数据集的前 n 行 |
|
返回请求轴上最大值的第一个出现的索引。 |
|
返回请求轴上最小值的首次出现的索引。 |
纯基于位置的整数索引,用于按位置选择。 |
|
返回 dask 索引实例 |
|
|
Dask DataFrame 的简要概述 |
|
DataFrame 中的每个元素是否包含在值中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
遍历 (列名, 系列) 对。 |
|
遍历 DataFrame 行作为 (索引, 系列) 对。 |
|
|
将 DataFrame 行作为命名元组进行迭代。 |
|
连接另一个DataFrame的列。 |
是否已知分区。 |
|
|
|
纯标签位置索引器,用于按标签选择。 |
|
|
|
|
将一个Python函数应用于每个分区 |
|
替换条件为 True 的值。 |
|
返回请求轴上值的最大值。 |
|
返回请求轴上值的平均值。 |
|
返回请求轴上值的中位数。 |
|
返回沿请求轴的值的近似中位数。 |
|
将DataFrame从宽格式透视为长格式,可以选择保留标识符集。 |
|
返回每个列的内存使用情况,以字节为单位。 |
返回每个分区的内存使用情况 |
|
|
将 DataFrame 与另一个 DataFrame 合并 |
|
返回请求轴上值的最小值。 |
|
|
|
获取沿选定轴的每个元素的模式。 |
|
|
返回维度 |
|
|
|
|
返回按 columns 降序排列的前 n 行。 |
返回分区数量 |
|
|
返回按 columns 升序排列的前 n 行。 |
按分区切片数据框 |
|
|
将此 dask 集合持久化到内存中 |
|
创建一个电子表格样式的数据透视表作为DataFrame。 |
|
返回项目并从框架中移除。 |
|
|
|
返回请求轴上值的乘积。 |
|
DataFrame 的近似行方向和精确列方向的分位数 |
|
使用复杂表达式过滤数据框 |
|
|
|
伪随机地将数据框按行分割成不同的部分 |
|
|
|
重命名列或索引标签。 |
|
设置索引或列的轴名称。 |
|
重新分配一个集合 |
|
将 to_replace 中的值替换为 value。 |
|
重采样时间序列数据。 |
|
将索引重置为默认索引。 |
|
|
|
|
|
|
|
将 DataFrame 四舍五入到可变的小数位数。 |
|
|
|
|
|
|
|
随机样本项 |
|
根据列的数据类型返回DataFrame列的子集。 |
|
返回请求轴上的无偏标准误差。 |
|
使用现有列设置 DataFrame 索引(行标签)。 |
|
将 DataFrame 重新排列为新的分区 |
Series 或 DataFrame 的大小作为 Delayed 对象。 |
|
|
按单列对数据集进行排序。 |
|
将一维轴对象压缩为标量。 |
|
返回请求轴上的样本标准差。 |
|
|
|
返回请求轴上值的总和。 |
|
数据集的最后 n 行 |
|
切换到新的 DataFrame 后端 |
|
从 Series 创建一个 Dask Bag |
|
更多信息请参阅 dd.to_csv 的文档字符串 |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为旧版 dask-dataframe 集合 |
|
转换为一个 |
|
更多信息请参见 dd.to_hdf 的文档字符串 |
|
将 DataFrame 渲染为 HTML 表格。 |
|
更多信息请参见 dd.to_json 的文档字符串 |
|
转换为旧版 dask-dataframe 集合 |
|
|
|
|
|
将 DataFrame 渲染为控制台友好的表格输出。 |
|
|
|
将时间戳转换为DatetimeIndex,在周期的*开始*。 |
|
|
返回此数据框的值的 dask.array |
|
|
返回请求轴上的无偏方差。 |
|
可视化表达式或任务图 |
|
替换条件为 False 的值。 |
系列¶
|
类似序列的表达式集合。 |
|
|
|
使用指定的连接方法将两个对象沿其轴对齐。 |
|
返回是否所有元素都为 True,可能是在某个轴上。 |
|
返回是否任何元素为 True,可能在某个轴上。 |
|
pandas.Series.apply 的并行版本 |
|
将 pandas 对象转换为指定的数据类型 |
|
计算滞后N的自相关。 |
|
返回布尔序列,等价于 left <= 序列 <= right。 |
|
使用下一个有效观测值来填充NA/NaN值。 |
忘记分割信息。 |
|
|
在输入阈值处修剪值。 |
|
计算这个 DataFrame。 |
|
复制数据框 |
|
计算与 other Series 的相关性,排除缺失值。 |
|
统计每列或每行的非NA单元格数量。 |
|
计算与 Series 的协方差,排除缺失值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积和。 |
|
生成描述性统计数据。 |
|
元素的第一次离散差分。 |
|
|
|
|
返回一个移除了缺失值的新序列。 |
|
|
|
将类似列表的每个元素转换为一行。 |
|
|
用最后一个有效观测值填充 NA/NaN 值,传播到下一个有效值。 |
|
使用指定方法填充 NA/NaN 值。 |
|
|
|
|
获取表示第 nth 分区的 dask DataFrame/Series。 |
|
|
使用映射器或通过一系列列来分组系列。 |
|
|
|
数据集的前 n 行 |
|
返回请求轴上最大值的第一个出现的索引。 |
|
返回请求轴上最小值的首次出现的索引。 |
|
DataFrame 中的每个元素是否包含在值中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
是否已知分区。 |
|
|
|
纯标签位置索引器,用于按标签选择。 |
|
|
|
|
根据输入的映射或函数映射 Series 的值。 |
|
对每个分区应用一个函数,与相邻分区共享行。 |
|
将一个Python函数应用于每个分区 |
|
替换条件为 True 的值。 |
|
返回请求轴上值的最大值。 |
|
返回请求轴上值的平均值。 |
返回请求轴上值的中位数。 |
|
|
返回沿请求轴的值的近似中位数。 |
|
返回 Series 的内存使用情况。 |
|
返回每个分区的内存使用情况 |
|
返回请求轴上值的最小值。 |
|
|
|
|
字节数 |
|
返回维度 |
|
|
|
|
返回最大的 n 个元素。 |
DataFrame.notnull 是 DataFrame.notna 的别名。 |
|
|
返回最小的 n 个元素。 |
|
返回对象中唯一元素的数量。 |
|
唯一行的近似数量。 |
|
将此 dask 集合持久化到内存中 |
|
应用期望 Series 或 DataFrame 的可链式函数。 |
|
|
|
返回请求轴上值的乘积。 |
|
Series 的近似分位数 |
|
|
|
伪随机地将数据框按行分割成不同的部分 |
|
|
|
重新分配一个集合 |
|
将 to_replace 中的值替换为 value。 |
|
修改系列索引标签或名称 |
|
重采样时间序列数据。 |
|
将索引重置为默认索引。 |
|
提供滚动变换功能。 |
|
将 DataFrame 四舍五入到可变的小数位数。 |
|
随机样本项 |
|
返回请求轴上的无偏标准误差。 |
返回一个表示 DataFrame 维度的元组。 |
|
|
通过可选的时间 freq 将索引按所需周期数进行移位。 |
Series 或 DataFrame 的大小作为 Delayed 对象。 |
|
|
返回请求轴上的样本标准差。 |
|
|
|
返回请求轴上值的总和。 |
|
切换到新的 DataFrame 后端 |
|
从 Series 创建一个 Dask Bag |
|
更多信息请参阅 dd.to_csv 的文档字符串 |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为一个 |
|
将 Series 转换为 DataFrame。 |
|
更多信息请参见 dd.to_hdf 的文档字符串 |
|
渲染 Series 的字符串表示。 |
|
将时间戳转换为DatetimeIndex,在周期的*开始*。 |
|
|
|
返回对象中的唯一值序列。 |
|
返回一个包含唯一值计数的系列。 |
返回此数据框的值的 dask.array |
|
|
返回请求轴上的无偏方差。 |
|
可视化表达式或任务图 |
|
替换条件为 False 的值。 |
索引¶
|
索引式表达式集合。 |
|
|
|
使用指定的连接方法将两个对象沿其轴对齐。 |
|
返回是否所有元素都为 True,可能是在某个轴上。 |
|
返回是否任何元素为 True,可能在某个轴上。 |
|
pandas.Series.apply 的并行版本 |
|
将 pandas 对象转换为指定的数据类型 |
|
计算滞后N的自相关。 |
|
返回布尔序列,等价于 left <= 序列 <= right。 |
|
使用下一个有效观测值来填充NA/NaN值。 |
忘记分割信息。 |
|
|
在输入阈值处修剪值。 |
|
计算这个 DataFrame。 |
|
复制数据框 |
|
计算与 other Series 的相关性,排除缺失值。 |
|
统计每列或每行的非NA单元格数量。 |
|
计算与 Series 的协方差,排除缺失值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积和。 |
|
生成描述性统计数据。 |
|
元素的第一次离散差分。 |
|
|
|
|
返回一个移除了缺失值的新序列。 |
|
|
|
将类似列表的每个元素转换为一行。 |
|
|
用最后一个有效观测值填充 NA/NaN 值,传播到下一个有效值。 |
|
使用指定方法填充 NA/NaN 值。 |
|
|
|
|
获取表示第 nth 分区的 dask DataFrame/Series。 |
|
|
使用映射器或通过一系列列来分组系列。 |
|
|
|
数据集的前 n 行 |
如果对象中的值是单调递减的,则返回布尔值。 |
|
如果对象中的值是单调递增的,则返回布尔值。 |
|
|
DataFrame 中的每个元素是否包含在值中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
是否已知分区。 |
|
|
|
纯标签位置索引器,用于按标签选择。 |
|
|
|
|
使用输入映射或函数映射值。 |
|
对每个分区应用一个函数,与相邻分区共享行。 |
|
将一个Python函数应用于每个分区 |
|
替换条件为 True 的值。 |
|
返回请求轴上值的最大值。 |
返回请求轴上值的中位数。 |
|
|
返回沿请求轴的值的近似中位数。 |
|
值的内存使用情况。 |
|
返回每个分区的内存使用情况 |
|
返回请求轴上值的最小值。 |
|
|
|
|
字节数 |
|
返回维度 |
|
|
|
|
返回最大的 n 个元素。 |
DataFrame.notnull 是 DataFrame.notna 的别名。 |
|
|
返回最小的 n 个元素。 |
|
返回对象中唯一元素的数量。 |
|
唯一行的近似数量。 |
|
将此 dask 集合持久化到内存中 |
|
应用期望 Series 或 DataFrame 的可链式函数。 |
|
|
|
Series 的近似分位数 |
|
|
|
伪随机地将数据框按行分割成不同的部分 |
|
|
|
修改系列索引标签或名称 |
|
重新分配一个集合 |
|
将 to_replace 中的值替换为 value。 |
|
重采样时间序列数据。 |
|
将索引重置为默认索引。 |
|
提供滚动变换功能。 |
|
将 DataFrame 四舍五入到可变的小数位数。 |
|
随机样本项 |
|
返回请求轴上的无偏标准误差。 |
返回一个表示 DataFrame 维度的元组。 |
|
|
通过可选的时间 freq 将索引按所需周期数进行移位。 |
Series 或 DataFrame 的大小作为 Delayed 对象。 |
|
|
|
|
切换到新的 DataFrame 后端 |
|
从 Series 创建一个 Dask Bag |
|
更多信息请参阅 dd.to_csv 的文档字符串 |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为一个 |
|
创建一个包含索引列的DataFrame。 |
|
更多信息请参见 dd.to_hdf 的文档字符串 |
|
创建一个索引和值都等于索引键的系列。 |
|
渲染 Series 的字符串表示。 |
|
将时间戳转换为DatetimeIndex,在周期的*开始*。 |
|
|
|
返回对象中的唯一值序列。 |
|
返回一个包含唯一值计数的系列。 |
返回此数据框的值的 dask.array |
|
|
可视化表达式或任务图 |
|
替换条件为 False 的值。 |
|
创建一个包含索引列的DataFrame。 |
访问器¶
与 pandas 类似,Dask 在各种访问器下提供了特定于数据类型的方法。这些是 Series 中的独立命名空间,仅适用于特定的数据类型。
访问器实现与当前的 Dask DataFrame 实现一致。
分组操作¶
DataFrame 分组¶
|
使用一个或多个指定的操作进行聚合 |
|
pandas GroupBy.apply 的并行版本 |
|
向后填充值。 |
|
计算组的数量,排除缺失值。 |
每个组中的每一项从0到该组长度减1进行编号。 |
|
|
每个组的累积乘积。 |
|
每个组的累计和。 |
|
向前填充值。 |
|
从具有提供名称的组构造 DataFrame。 |
|
计算组值的最大值。 |
|
计算各组的均值,排除缺失值。 |
|
计算组值的最小值。 |
|
计算组大小。 |
|
计算组的样本标准差,排除缺失值。 |
|
计算组值的总和。 |
|
计算各组的方差,排除缺失值。 |
|
计算列之间的成对协方差,排除NA/空值。 |
|
计算列之间的成对相关性,排除NA/null值。 |
|
计算每个组内每一列的第一个条目。 |
|
计算每个组内每一列的最后一个条目。 |
|
返回请求轴上最小值的首次出现的索引。 |
|
返回请求轴上最大值的第一个出现的索引。 |
|
提供滚动变换功能。 |
|
pandas GroupBy.transform 的并行版本 |
Series 分组¶
|
使用一个或多个指定的操作进行聚合 |
|
pandas GroupBy.apply 的并行版本 |
|
向后填充值。 |
|
计算组的数量,排除缺失值。 |
每个组中的每一项从0到该组长度减1进行编号。 |
|
|
每个组的累积乘积。 |
|
每个组的累计和。 |
|
向前填充值。 |
从具有提供名称的组构造 DataFrame。 |
|
|
计算组值的最大值。 |
|
计算各组的均值,排除缺失值。 |
|
计算组值的最小值。 |
|
返回组中唯一元素的数量。 |
|
计算组大小。 |
|
计算组的样本标准差,排除缺失值。 |
|
计算组值的总和。 |
|
计算各组的方差,排除缺失值。 |
|
计算每个组内每一列的第一个条目。 |
|
计算每个组内每一列的最后一个条目。 |
|
返回请求轴上最小值的首次出现的索引。 |
|
返回请求轴上最大值的第一个出现的索引。 |
|
提供滚动变换功能。 |
|
pandas GroupBy.transform 的并行版本 |
自定义聚合¶
|
用户定义的分组聚合。 |
滚动操作¶
|
提供滚动变换功能。 |
|
提供滚动变换功能。 |
|
计算滚动自定义聚合函数。 |
计算非 NaN 观测值的滚动计数。 |
|
计算无偏的滚动Fisher峰度定义。 |
|
计算滚动最大值。 |
|
计算滚动平均值。 |
|
计算滚动中位数。 |
|
计算滚动最小值。 |
|
计算滚动分位数。 |
|
计算滚动无偏斜度。 |
|
计算滚动标准差。 |
|
计算滚动总和。 |
|
计算滚动方差。 |
创建数据框¶
|
|
|
|
|
|
|
将 Parquet 文件读取到 Dask DataFrame 中 |
|
|
|
从一组JSON文件创建一个数据框 |
|
从 ORC 文件中读取数据框 |
|
将 SQL 数据库表读取到 DataFrame 中。 |
|
将 SQL 查询读取到 DataFrame 中。 |
|
将 SQL 查询或数据库表读取到 DataFrame 中。 |
|
将任何可切片数组读入 Dask 数据框 |
|
从 Dask 数组创建一个 Dask DataFrame。 |
|
从许多 Dask Delayed 对象创建 Dask DataFrame |
|
从自定义函数映射创建一个 DataFrame 集合。 |
|
从 Pandas DataFrame 构建 Dask DataFrame |
|
从 Python 字典构建 Dask DataFrame |
存储数据框¶
|
将 Dask DataFrame 存储为 CSV 文件 |
|
将 Dask.dataframe 存储到 Parquet 文件 |
|
将 Dask DataFrame 存储到分层数据格式 (HDF) 文件 |
|
从 Dask Dataframe 创建 Dask Array |
|
将 Dask 数据框存储到 SQL 表中 |
|
将数据框写入 JSON 文本文件 |
转换数据框¶
|
从 Series 创建一个 Dask Bag |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为一个 |
从/到旧版 DataFrame 转换¶
|
转换为旧版 dask-dataframe 集合 |
|
从旧版 dask-dataframe 集合创建一个 dask-expr 集合 |
重塑 DataFrame¶
|
将分类变量转换为哑变量/指示变量。 |
|
创建一个电子表格样式的数据透视表作为DataFrame。 |
|
连接DataFrame¶
|
将 DataFrame 与另一个 DataFrame 合并 |
|
沿行方向连接DataFrame。 |
|
使用数据库风格的连接合并 DataFrame 或命名 Series 对象。 |
|
按键距离执行合并。 |
重采样¶
|
使用一个或多个操作进行聚合 |
|
在指定的轴上使用一个或多个操作进行聚合。 |
计算组的数量,排除缺失值。 |
|
计算每个组内每一列的第一个条目。 |
|
计算每个组内每一列的最后一个条目。 |
|
计算组的最大值。 |
|
计算各组的均值,排除缺失值。 |
|
计算各组的中位数,排除缺失值。 |
|
计算组的最小值。 |
|
返回组中唯一元素的数量。 |
|
计算一组数据的开盘、最高、最低和收盘值,排除缺失值。 |
|
计算组值的乘积。 |
|
返回给定分位数的值。 |
|
计算各组均值的标准误差,排除缺失值。 |
|
计算组大小。 |
|
计算组的样本标准差,排除缺失值。 |
|
计算组值的总和。 |
|
计算各组的方差,排除缺失值。 |
查询计划与优化¶
|
创建表达式的图形表示。 |
|
可视化表达式或任务图 |
|
输出表达式中每个节点的统计信息。 |
其他功能¶
|
一次计算多个 dask 集合。 |
|
在每个 DataFrame 分区上应用 Python 函数。 |
|
对每个分区应用一个函数,与相邻分区共享行。 |
将参数转换为日期时间。 |
|
|
将参数转换为数值类型。 |
将参数转换为 timedelta。 |