pyspark.sql.GroupedData.count ¶

GroupedData. count ( ) → pyspark.sql.dataframe.DataFrame [source] ¶

计算每个组的记录数。

新增于版本 1.3.0。

在版本 3.4.0 中更改: 支持 Spark Connect。

示例

           >>> df = spark.createDataFrame(
...      [(2, "Alice"), (3, "Alice"), (5, "Bob"), (10, "Bob")], ["age", "name"])
>>> df.show()
+---+-----+
|age| name|
+---+-----+
|  2|Alice|
|  3|Alice|
|  5|  Bob|
| 10|  Bob|
+---+-----+

          

按名称分组，并统计每个组的数量。

           >>> df.groupBy(df.name).count().sort("name").show()
+-----+-----+
| name|count|
+-----+-----+
|Alice|    2|
|  Bob|    2|
+-----+-----+

          

pyspark.sql.GroupedData.cogroup

pyspark.sql.GroupedData.max