pyspark.pandas.groupby.GroupBy.sum

GroupBy. sum ( numeric_only : Optional [ bool ] = True , min_count : int = 0 ) → FrameLike [source]

计算组值的总和

新增于版本 3.3.0。

Parameters
numeric_only bool, default False

仅包含浮点数、整数、布尔类型的列。如果为None,将尝试使用所有列,然后仅使用数值数据。 此处仅支持数值列,因此此参数无效。

新增于版本 3.4.0。

min_count int, default 0

执行操作所需的有效值数量。 如果少于 min_count 个非 NA 值,结果将为 NA。

新增于版本 3.4.0。

注释

pandas-on-Spark 和 pandas 之间存在行为差异:

  • 当存在非数值聚合列时,它将被忽略

    即使 numeric_only 为 False。

示例

>>> df = ps.DataFrame({"A": [1, 2, 1, 2], "B": [True, False, False, True],
...                    "C": [3, 4, 3, 4], "D": ["a", "a", "b", "a"]})
>>> df.groupby("A").sum().sort_index()
   B  C
A
1  1  6
2  1  8
>>> df.groupby("D").sum().sort_index()
   A  B   C
D
a  5  2  11
b  1  0   3
>>> df.groupby("D").sum(min_count=3).sort_index()
     A    B     C
D
a  5.0  2.0  11.0
b  NaN  NaN   NaN