pyspark.sql.GroupedData.count ¶
-
GroupedData.
count
( ) → pyspark.sql.dataframe.DataFrame [source] ¶ -
计算每个组的记录数。
新增于版本 1.3.0。
在版本 3.4.0 中更改: 支持 Spark Connect。
示例
>>> df = spark.createDataFrame( ... [(2, "Alice"), (3, "Alice"), (5, "Bob"), (10, "Bob")], ["age", "name"]) >>> df.show() +---+-----+ |age| name| +---+-----+ | 2|Alice| | 3|Alice| | 5| Bob| | 10| Bob| +---+-----+
按名称分组,并统计每个组的数量。
>>> df.groupBy(df.name).count().sort("name").show() +-----+-----+ | name|count| +-----+-----+ |Alice| 2| | Bob| 2| +-----+-----+