GroupBy ¶

GroupBy 对象由 groupby 调用返回： DataFrame.groupby() 、 Series.groupby() 等。

Indexing, iteration ¶

GroupBy.get_group (名称)

从具有提供名称的组构造DataFrame。

Function application ¶

`GroupBy.apply` (func, args, *kwargs)	按组应用函数 func 并将结果组合在一起。
`GroupBy.transform` (func, args, *kwargs)	对 GroupBy 对象按列应用函数。

以下方法仅适用于 DataFrameGroupBy 对象。

`DataFrameGroupBy.agg` ([func_or_funcs])	在指定轴上使用一个或多个操作进行聚合。
`DataFrameGroupBy.aggregate` ([func_or_funcs])	在指定轴上使用一个或多个操作进行聚合。

Computations / Descriptive Stats ¶

`GroupBy.all` ([skipna])	如果组中的所有值都为真，则返回 True，否则返回 False。
`GroupBy.any` ()	如果组中的任何值为真，则返回 True，否则返回 False。
`GroupBy.count` ()	计算组的数量，排除缺失值。
`GroupBy.cumcount` ([升序])	每个组中的每个项目从0到该组长度减1进行编号。
`GroupBy.cummax` ()	每个组的累积最大值。
`GroupBy.cummin` ()	每个组的累积最小值。
`GroupBy.cumprod` ()	每个组的累积乘积。
`GroupBy.cumsum` ()	每个组的累计和。
`GroupBy.ewm` ([com, span, halflife, alpha, …])	返回一个ewm分组器，为每个组提供ewm功能。
`GroupBy.filter` (func)	返回一个DataFrame的副本，排除不满足func指定的布尔条件的组中的元素。
`GroupBy.first` ([numeric_only, min_count])	计算分组值的第一个值。
`GroupBy.last` ([numeric_only, min_count])	计算分组值的最后一个。
`GroupBy.mad` ()	计算组的平均绝对偏差，排除缺失值。
`GroupBy.max` ([numeric_only, min_count])	计算组值的最大值。
`GroupBy.mean` ([numeric_only])	计算各组的均值，排除缺失值。
`GroupBy.median` ([numeric_only, accuracy])	计算各组的中位数，排除缺失值。
`GroupBy.min` ([numeric_only, min_count])	计算组值的最小值。
`GroupBy.nth` (n)	从每个组中取第n行。
`GroupBy.prod` ([numeric_only, min_count])	计算组的乘积。
`GroupBy.rank` ([方法, 升序])	提供每个组内值的排名。
`GroupBy.sem` ([ddof])	计算各组均值的标准误差，排除缺失值。
`GroupBy.std` ([ddof])	计算组的标准差，排除缺失值。
`GroupBy.sum` ([numeric_only, min_count])	计算组值的总和
`GroupBy.var` ([ddof])	计算组的方差，排除缺失值。
`GroupBy.nunique` ([dropna])	返回DataFrame，其中包含每列中每个组的唯一观测值数量。
`GroupBy.quantile` ([q, accuracy])	返回给定分位数处的组值。
`GroupBy.size` ()	计算组大小。
`GroupBy.diff` ([periods])	元素的第一个离散差分。
`GroupBy.idxmax` ([skipna])	返回组中沿请求轴的最大值的第一个出现的索引。
`GroupBy.idxmin` ([skipna])	返回组中沿请求轴的最小值的第一个出现的索引。
`GroupBy.fillna` ([value, method, axis, …])	在组中填充NA/NaN值。
`GroupBy.bfill` ([limit])	同义词为 DataFrame.fillna() 方法，使用 method=`bfill` 。
`GroupBy.ffill` ([limit])	同义词为 DataFrame.fillna() 方法，使用 method=`ffill` 。
`GroupBy.head` ([n])	返回每个组的前n行。
`GroupBy.backfill` ([limit])	别名用于bfill。
`GroupBy.shift` ([periods, fill_value])	将每个组按周期数进行移动。
`GroupBy.tail` ([n])	返回每个组的最后n行。

以下方法仅适用于 DataFrameGroupBy 对象。

DataFrameGroupBy.describe ()

生成描述性统计数据，总结数据集分布的集中趋势、离散度和形状，排除 NaN 值。

以下方法仅适用于 SeriesGroupBy 对象。

`SeriesGroupBy.nsmallest` ([n])	返回最小的 n 个元素。
`SeriesGroupBy.nlargest` ([n])	返回按组中列降序排列的前n行。
`SeriesGroupBy.value_counts` ([sort, …])	计算组大小。
`SeriesGroupBy.unique` ()	返回组中的唯一值。

pyspark.pandas.窗口.指数移动.均值

pyspark.pandas.groupby.GroupBy.get_group