pyspark.sql.GroupedData.count

GroupedData. count ( ) → pyspark.sql.dataframe.DataFrame [source]

计算每个组的记录数。

新增于版本 1.3.0。

在版本 3.4.0 中更改: 支持 Spark Connect。

示例

>>> df = spark.createDataFrame(
...      [(2, "Alice"), (3, "Alice"), (5, "Bob"), (10, "Bob")], ["age", "name"])
>>> df.show()
+---+-----+
|age| name|
+---+-----+
|  2|Alice|
|  3|Alice|
|  5|  Bob|
| 10|  Bob|
+---+-----+

按名称分组,并统计每个组的数量。

>>> df.groupBy(df.name).count().sort("name").show()
+-----+-----+
| name|count|
+-----+-----+
|Alice|    2|
|  Bob|    2|
+-----+-----+