Grouping

GroupedData.agg (*exprs)

计算汇总并返回结果为一个 DataFrame

GroupedData.apply (用户定义函数)

它是 pyspark.sql.GroupedData.applyInPandas() 的别名;然而,它采用 pyspark.sql.functions.pandas_udf() ,而 pyspark.sql.GroupedData.applyInPandas() 则采用一个 Python 本地函数。

GroupedData.applyInPandas (函数, 模式)

使用 pandas udf 映射当前 DataFrame 的每个组,并将结果作为 DataFrame 返回。

GroupedData.applyInPandasWithState (func, …)

将给定的函数应用于每个数据组,同时保持用户定义的每组状态。

GroupedData.avg (*列)

计算每组每个数值列的平均值。

GroupedData.cogroup (其他)

将该组与另一个组合并,以便我们可以运行组合操作。

GroupedData.count ()

计算每个组的记录数量。

GroupedData.max (*列)

计算每个分组中每个数值列的最大值。

GroupedData.mean (*列)

计算每组每个数值列的平均值。

GroupedData.min (*列)

为每个组计算每个数值列的最小值。

GroupedData.pivot (透视列[, 值])

对当前 DataFrame 的一列进行透视并执行指定的聚合。

GroupedData.sum (*列)

计算每个组中每个数字列的总和。

PandasCogroupedOps.applyInPandas (func, schema)

对每个协同组应用一个函数,并将结果返回为一个 DataFrame