dask.dataframe.DataFrame

dask.dataframe.DataFrame¶

class dask.dataframe.DataFrame(dsk, name, meta, divisions)[源代码]¶

并行 Pandas DataFrame

不要直接使用这个类。请使用 dd.read_csv、dd.read_parquet 或 dd.from_pandas 等函数。

参数

dsk: dict: 计算此DataFrame的dask图
名称: str: 指定dask中哪些键构成此特定DataFrame的关键前缀
meta: pandas.DataFrame: 一个空的 pandas.DataFrame ，其名称、数据类型和索引与预期输出匹配。
divisions: 索引值的元组: 我们在索引上划分块的值

__init__(dsk, name, meta, divisions)[源代码]¶

方法

`__init__`(dsk, name, meta, divisions)
`abs`()	返回一个包含每个元素绝对数值的 Series/DataFrame。
`add`(other[, axis, level, fill_value])	获取数据框和其他对象的逐元素相加结果（二元运算符 add）。
`add_prefix`(prefix)	使用字符串 prefix 作为标签前缀。
`add_suffix`(suffix)	使用字符串 suffix 作为后缀标签。
`align`(other[, join, axis, fill_value])	使用指定的连接方法将两个对象沿其轴对齐。
`all`([axis, skipna, split_every, out])	返回是否所有元素都为 True，可能是在某个轴上。
`any`([axis, skipna, split_every, out])	返回是否任何元素为 True，可能在某个轴上。
`apply`(func[, axis, broadcast, raw, reduce, ...])	pandas.DataFrame.apply 的并行版本
`applymap`(func[, meta])	对 Dataframe 的每个元素应用一个函数。
`assign`(**kwargs)	将新列分配给 DataFrame。
`astype`(dtype)	将 pandas 对象转换为指定的数据类型 `dtype`。
`bfill`([axis, limit])	使用下一个有效观测值来填充NA/NaN值。
`categorize`([columns, index, split_every])	将 DataFrame 的列转换为类别数据类型。
`clear_divisions`()	忘记部门信息
`clip`([lower, upper, axis])	在输入阈值处修剪值。
`combine`(other, func[, fill_value, overwrite])	与另一个 DataFrame 进行列合并。
`combine_first`(other)	使用 other 中相同位置的值更新空元素。
`compute`(**kwargs)	计算这个 dask 集合
`compute_current_divisions`([col])	计算DataFrame的当前分区。
`copy`([deep])	复制数据框
`corr`([method, min_periods, numeric_only, ...])	计算列之间的成对相关性，排除NA/null值。
`count`([axis, split_every, numeric_only])	计算每列或每行的非NA单元格数量。
`cov`([min_periods, numeric_only, split_every])	计算列之间的成对协方差，排除NA/空值。
`cummax`([axis, skipna, out])	返回 DataFrame 或 Series 轴上的累积最大值。
`cummin`([axis, skipna, out])	返回 DataFrame 或 Series 轴上的累积最小值。
`cumprod`([axis, skipna, dtype, out])	返回 DataFrame 或 Series 轴上的累积乘积。
`cumsum`([axis, skipna, dtype, out])	返回 DataFrame 或 Series 轴上的累积和。
`describe`([split_every, percentiles, ...])	生成描述性统计数据。
`diff`([periods, axis])	元素的第一次离散差分。
`div`(other[, axis, level, fill_value])	获取数据框和其他对象的浮点数除法，逐元素进行（二元运算符 truediv）。
`divide`(other[, axis, level, fill_value])	获取数据框和其他对象的浮点数除法，逐元素进行（二元运算符 truediv）。
`dot`(other[, meta])	计算 Series 与 other 列之间的点积。
`drop`([labels, axis, columns, errors])	从行或列中删除指定的标签。
`drop_duplicates`([subset, split_every, ...])	返回删除重复行后的DataFrame。
`dropna`([how, subset, thresh])	移除缺失值。
`enforce_runtime_divisions`()	在运行时强制执行当前分区
`eq`(other[, axis, level])	获取数据框与其他的元素逐个相等的结果（二元运算符 eq）。
`eval`(expr[, inplace])	评估一个描述对DataFrame列进行操作的字符串。
`explode`(column)	将类似列表的每个元素转换为一行，复制索引值。
`ffill`([axis, limit])	通过将最后一个有效观测值传播到下一个有效值来填充 NA/NaN 值。
`fillna`([value, method, limit, axis])	使用指定方法填充 NA/NaN 值。
`first`(offset)	根据日期偏移选择时间序列数据的初始时间段。
`floordiv`(other[, axis, level, fill_value])	获取数据框和其他对象的整数除法，逐元素进行（二元运算符 floordiv）。
`from_dict`(data, *, npartitions[, orient, ...])	从 Python 字典构建 Dask DataFrame
`ge`(other[, axis, level])	获取数据框和其他对象的元素级大于或等于结果（二进制运算符 ge）。
`get_partition`(n)	获取表示第 nth 分区的 dask DataFrame/Series。
`groupby`([by, group_keys, sort, observed, dropna])	使用映射器或按列的Series对DataFrame进行分组。
`gt`(other[, axis, level])	获取数据框和另一个数据框的元素级大于比较结果（二元运算符 gt）。
`head`([n, npartitions, compute])	数据集的前 n 行
`idxmax`([axis, skipna, split_every, numeric_only])	返回请求轴上最大值的第一个出现的索引。
`idxmin`([axis, skipna, split_every, numeric_only])	返回请求轴上最小值的首次出现的索引。
`info`([buf, verbose, memory_usage])	Dask DataFrame 的简要概述。
`isin`(values)	DataFrame 中的每个元素是否包含在值中。
`isna`()	检测缺失值。
`isnull`()	DataFrame.isnull 是 DataFrame.isna 的别名。
`items`()	遍历 (列名, 系列) 对。
`iterrows`()	遍历 DataFrame 行作为 (索引, 系列) 对。
`itertuples`([index, name])	将 DataFrame 行作为命名元组进行迭代。
`join`(other[, on, how, lsuffix, rsuffix, ...])	连接另一个DataFrame的列。
`kurtosis`([axis, fisher, bias, nan_policy, ...])	返回请求轴上的无偏峰度。
`last`(offset)	根据日期偏移选择时间序列数据的最后时间段。
`le`(other[, axis, level])	获取数据框和其他对象的元素级小于或等于（二进制运算符 le）。
`lt`(other[, axis, level])	获取数据框和其他对象的元素级小于比较（二元运算符 lt）。
`map`(func[, meta, na_action])
`map_overlap`(func, before, after, args, *kwargs)	对每个分区应用一个函数，与相邻分区共享行。
`map_partitions`(func, args, *kwargs)	在每个 DataFrame 分区上应用 Python 函数。
`mask`(cond[, other])	替换条件为 True 的值。
`max`([axis, skipna, split_every, out, ...])	返回请求轴上的值的最大值。
`mean`([axis, skipna, split_every, dtype, ...])	返回请求轴上值的平均值。
`median`([axis, method])	返回请求轴上值的中位数。
`median_approximate`([axis, method])	返回请求轴上值的近似中位数。
`melt`([id_vars, value_vars, var_name, ...])	将 DataFrame 从宽格式透视为长格式，可以选择保留标识变量集。
`memory_usage`([index, deep])	返回每个列的内存使用情况，以字节为单位。
`memory_usage_per_partition`([index, deep])	返回每个分区的内存使用情况
`merge`(right[, how, on, left_on, right_on, ...])	将 DataFrame 与另一个 DataFrame 合并
`min`([axis, skipna, split_every, out, ...])	返回请求轴上值的最小值。
`mod`(other[, axis, level, fill_value])	获取数据框和其他对象的模数，逐元素操作（二元运算符 mod）。
`mode`([dropna, split_every, numeric_only])	获取所选轴上每个元素的模式。
`mul`(other[, axis, level, fill_value])	获取数据框和其他对象的逐元素乘积（二元运算符 mul）。
`ne`(other[, axis, level])	获取数据框和另一个数据框的元素不等式（二元运算符 ne）。
`nlargest`([n, columns, split_every])	返回按 columns 降序排列的前 n 行。
`notnull`()	DataFrame.notnull 是 DataFrame.notna 的别名。
`nsmallest`([n, columns, split_every])	返回按 columns 升序排列的前 n 行。
`nunique`([split_every, dropna, axis])	计算指定轴上的不同元素的数量。
`nunique_approx`([split_every])	唯一行的近似数量。
`persist`(**kwargs)	将此 dask 集合持久化到内存中
`pipe`(func, args, *kwargs)	应用期望 Series 或 DataFrame 的可链式函数。
`pivot_table`([index, columns, values, aggfunc])	创建一个电子表格样式的数据透视表作为DataFrame。
`pop`(item)	返回项目并从框架中移除。
`pow`(other[, axis, level, fill_value])	获取数据框和其他对象的指数幂，逐元素操作（二元运算符 pow）。
`prod`([axis, skipna, split_every, dtype, ...])	返回请求轴上值的乘积。
`product`([axis, skipna, split_every, dtype, ...])	返回请求轴上值的乘积。
`quantile`([q, axis, numeric_only, method])	DataFrame 的近似行方向和精确列方向的分位数
`query`(expr, **kwargs)	使用复杂表达式过滤数据框
`radd`(other[, axis, level, fill_value])	获取数据框与其他对象的逐元素相加结果（二元运算符 radd）。
`random_split`(frac[, random_state, shuffle])	伪随机地将数据框按行分割成不同的部分
`rdiv`(other[, axis, level, fill_value])	获取数据框和其他对象的浮点数除法，逐元素进行（二元运算符 rtruediv）。
`reduction`(chunk[, aggregate, combine, meta, ...])	通用行级归约。
`rename`([index, columns])	重命名列或索引标签。
`repartition`([divisions, npartitions, ...])	沿新分区重新分区数据框
`replace`([to_replace, value, regex])	将 to_replace 中的值替换为 value。
`resample`(rule[, closed, label])	重采样时间序列数据。
`reset_index`([drop])	将索引重置为默认索引。
`rfloordiv`(other[, axis, level, fill_value])	获取数据框和其他对象的整数除法，逐元素进行（二元运算符 rfloordiv）。
`rmod`(other[, axis, level, fill_value])	获取数据框和其他对象的模数，逐元素进行（二元运算符 rmod）。
`rmul`(other[, axis, level, fill_value])	获取数据框和其他对象的逐元素乘积（二元运算符 rmul）。
`rolling`(window[, min_periods, center, ...])	提供滚动变换功能。
`round`([decimals])	将 DataFrame 四舍五入到可变的小数位数。
`rpow`(other[, axis, level, fill_value])	获取数据框和其他元素的指数幂（二元运算符 rpow）。
`rsub`(other[, axis, level, fill_value])	获取数据框与其他对象的元素减法（二元运算符 rsub）。
`rtruediv`(other[, axis, level, fill_value])	获取数据框和其他对象的浮点数除法，逐元素进行（二元运算符 rtruediv）。
`sample`([n, frac, replace, random_state])	随机样本项
`select_dtypes`([include, exclude])	根据列的数据类型返回DataFrame列的子集。
`sem`([axis, skipna, ddof, split_every, ...])	返回请求轴上的无偏标准误差。
`set_index`(other[, drop, sorted, ...])	使用现有列设置 DataFrame 索引（行标签）。
`shift`([periods, freq, axis])	通过可选的时间 freq 将索引按所需周期数进行移位。
`shuffle`(on[, npartitions, max_branch, ...])	将 DataFrame 重新排列为新的分区
`skew`([axis, bias, nan_policy, out, numeric_only])	返回请求轴上的无偏斜度。
`sort_values`(by[, npartitions, ascending, ...])	按单列对数据集进行排序。
`squeeze`([axis])	将一维轴对象压缩为标量。
`std`([axis, skipna, ddof, split_every, ...])	返回请求轴上的样本标准差。
`sub`(other[, axis, level, fill_value])	获取数据框与其他对象的元素级减法（二元运算符 sub）。
`sum`([axis, skipna, split_every, dtype, out, ...])	返回请求轴上值的总和。
`tail`([n, compute])	数据集的最后 n 行
`to_backend`([backend])	切换到新的 DataFrame 后端
`to_bag`([index, format])	从 Dask DataFrame 创建 Dask Bag
`to_csv`(filename, **kwargs)	将 Dask DataFrame 存储为 CSV 文件
`to_dask_array`([lengths, meta])	将 dask DataFrame 转换为 dask 数组。
`to_delayed`([optimize_graph])	转换为一个 `dask.delayed` 对象列表，每个分区一个。
`to_hdf`(path_or_buf, key[, mode, append])	将 Dask DataFrame 存储到分层数据格式 (HDF) 文件
`to_html`([max_rows])	将 DataFrame 渲染为 HTML 表格。
`to_json`(filename, args, *kwargs)	更多信息请参见 dd.to_json 的文档字符串
`to_orc`(path, args, *kwargs)	更多信息请参见 dd.to_orc 的文档字符串
`to_parquet`(path, args, *kwargs)	将 Dask.dataframe 存储到 Parquet 文件
`to_records`([index, lengths])	从 Dask Dataframe 创建 Dask Array
`to_sql`(name, uri[, schema, if_exists, ...])	有关更多信息，请参阅 dd.to_sql 的文档字符串
`to_string`([max_rows])	将 DataFrame 渲染为控制台友好的表格输出。
`to_timestamp`([freq, how, axis])	将时间戳转换为 DatetimeIndex，位于周期的开始。
`truediv`(other[, axis, level, fill_value])	获取数据框和其他对象的浮点数除法，逐元素进行（二元运算符 truediv）。
`var`([axis, skipna, ddof, split_every, ...])	返回请求轴上的无偏方差。
`visualize`([filename, format, optimize_graph])	使用 graphviz 渲染此对象任务图的计算。
`where`(cond[, other])	替换条件为 False 的值。

属性

`attrs`	此数据集的全局属性字典。
`axes`
`columns`
`divisions`	`npartitions + 1` 值的元组，按升序排列，标记每个分区索引的下限/上限。
`dtypes`	返回数据类型
`empty`
`iloc`	纯基于位置的整数索引，用于按位置选择。
`index`	返回 dask 索引实例
`known_divisions`	分区是否已知
`loc`	纯标签位置索引器，用于按标签选择。
`ndim`	返回维度
`npartitions`	返回分区数量
`partitions`	按分区切片数据框
`shape`	返回一个表示 DataFrame 维度的元组。
`size`	Series 或 DataFrame 的大小作为 Delayed 对象。
`values`	返回此数据框值的 dask.array

Dask DataFrame API（遗留版本）

dask.dataframe.DataFrame.abs