pyspark.pandas.groupby.GroupBy.sum ¶
-
GroupBy.sum( numeric_only : Optional [ bool ] = True , min_count : int = 0 ) → FrameLike [source] ¶ -
计算组值的总和
新增于版本 3.3.0。
- Parameters
-
- numeric_only bool, default False
-
仅包含浮点数、整数、布尔类型的列。如果为None,将尝试使用所有列,然后仅使用数值数据。 此处仅支持数值列,因此此参数无效。
新增于版本 3.4.0。
- min_count int, default 0
-
执行操作所需的有效值数量。 如果少于 min_count 个非 NA 值,结果将为 NA。
新增于版本 3.4.0。
注释
pandas-on-Spark 和 pandas 之间存在行为差异:
-
- 当存在非数值聚合列时,它将被忽略
-
即使 numeric_only 为 False。
示例
>>> df = ps.DataFrame({"A": [1, 2, 1, 2], "B": [True, False, False, True], ... "C": [3, 4, 3, 4], "D": ["a", "a", "b", "a"]})
>>> df.groupby("A").sum().sort_index() B C A 1 1 6 2 1 8
>>> df.groupby("D").sum().sort_index() A B C D a 5 2 11 b 1 0 3
>>> df.groupby("D").sum(min_count=3).sort_index() A B C D a 5.0 2.0 11.0 b NaN NaN NaN