分组#

GroupBy 对象由 groupby 调用返回:cudf.DataFrame.groupby(), cudf.Series.groupby(), 等。

索引,迭代#

GroupBy.__iter__()

GroupBy.groups

返回一个字典,将组键映射到行标签。

Grouper([key, level, freq, closed, label])

函数应用#

GroupBy.apply(func, *args[, engine, ...])

对分组后的数据块应用一个Python转换函数。

GroupBy.agg([func, engine, engine_kwargs])

对分组应用聚合操作。

SeriesGroupBy.aggregate(func, *args[, ...])

对组应用聚合操作。

DataFrameGroupBy.aggregate([func, engine, ...])

对组应用聚合操作。

GroupBy.pipe(func, *args, **kwargs)

应用带有参数的函数 func 到这个 GroupBy 对象,并返回函数的结果。

GroupBy.transform(func, *args[, engine, ...])

应用聚合操作,然后将结果广播到组的大小。

计算 / 描述性统计#

GroupBy.bfill([limit])

向后填充NA值。

GroupBy.count([dropna])

计算每列中的值的数量。

GroupBy.cumcount([ascending])

返回每个组中键的累积计数。

GroupBy.cummax(*args, **kwargs)

每个组的累积最大值。

GroupBy.cummin(*args, **kwargs)

每个组的累积最小值。

GroupBy.cumsum(*args, **kwargs)

每个组的累计和。

GroupBy.diff([periods, axis])

获取每个组中值之间的差异。

GroupBy.ffill([limit])

向前填充NA值。

GroupBy.first([numeric_only, min_count])

计算组值的第一个。

GroupBy.get_group(name[, obj])

从具有提供名称的组中构造DataFrame。

GroupBy.groups

返回一个将组键映射到行标签的字典。

GroupBy.idxmax([numeric_only, min_count])

计算组值的idxmax。

GroupBy.idxmin([numeric_only, min_count])

计算组值的idxmin。

GroupBy.last([numeric_only, min_count])

计算组值的最后一个。

GroupBy.max([numeric_only, min_count])

计算组值的最大值。

GroupBy.mean([numeric_only, min_count])

计算组值的平均值。

GroupBy.median([numeric_only, min_count])

计算组值的中位数。

GroupBy.min([numeric_only, min_count])

计算组值的最小值。

GroupBy.ngroup([ascending])

将每个组从0到组数-1进行编号。

GroupBy.nth(n[, dropna])

返回每个组的第n行。

GroupBy.nunique([dropna])

返回组中唯一元素的数量。

GroupBy.prod([numeric_only, min_count])

计算组值的乘积。

GroupBy.shift([periods, freq, axis, ...])

将每个组移动 periods 个位置。

GroupBy.size()

返回每个组的大小。

GroupBy.std([ddof, engine, engine_kwargs, ...])

计算每组值的列标准差。

GroupBy.sum([numeric_only, min_count])

计算组值的总和。

GroupBy.var([ddof, engine, engine_kwargs, ...])

计算每组值的列方差。

GroupBy.cov([min_periods, ddof, numeric_only])

计算DataFrame中各列的成对协方差,排除NA/空值。

以下方法在SeriesGroupByDataFrameGroupBy对象中都可用,但可能略有不同,通常在于DataFrameGroupBy版本通常允许指定一个轴参数,并且经常有一个参数指示是否限制应用于特定数据类型的列。

DataFrameGroupBy.bfill([limit])

向后填充NA值。

DataFrameGroupBy.corr([method, min_periods, ...])

计算列的成对相关性,排除NA/空值。

DataFrameGroupBy.count([dropna])

计算每列中的值的数量。

DataFrameGroupBy.cumcount([ascending])

返回每个组中键的累积计数。

DataFrameGroupBy.cummax(*args, **kwargs)

每个组的累积最大值。

DataFrameGroupBy.cummin(*args, **kwargs)

每个组的累积最小值。

DataFrameGroupBy.cumsum(*args, **kwargs)

每个组的累计和。

DataFrameGroupBy.describe([percentiles, ...])

生成描述性统计信息,总结数据集分布的中心趋势、离散度和形状,不包括NaN值。

DataFrameGroupBy.diff([periods, axis])

获取每组中值之间的差异。

DataFrameGroupBy.ffill([limit])

向前填充NA值。

DataFrameGroupBy.fillna([value, method, ...])

使用指定的方法填充NA值。

DataFrameGroupBy.idxmax([numeric_only, ...])

计算组值的idxmax。

DataFrameGroupBy.idxmin([numeric_only, ...])

计算组值的idxmin。

DataFrameGroupBy.nunique([dropna])

返回组中唯一元素的数量。

DataFrameGroupBy.quantile([q, ...])

计算每组值的列方向分位数。

DataFrameGroupBy.shift([periods, freq, ...])

将每个组移动 periods 个位置。

DataFrameGroupBy.size()

返回每个组的大小。

以下方法仅适用于SeriesGroupBy对象。

SeriesGroupBy.corr(other[, method, min_periods])

SeriesGroupBy.nunique([dropna])

返回组中唯一元素的数量。

SeriesGroupBy.unique()

获取每个组中每列的唯一值列表。