pyspark.pandas.groupby.GroupBy.first ¶

GroupBy. first ( numeric_only : Optional [ bool ] = False , min_count : int = - 1 ) → FrameLike [source] ¶

计算分组值的第一个值。

新增于版本 3.3.0。

Parameters

numeric_only bool, default False: 仅包含浮点数、整数、布尔类型的列。如果为None，将尝试使用所有列，然后仅使用数值数据。

新增于版本 3.4.0。
min_count int, default -1: 执行操作所需的有效值数量。如果少于 min_count 个非NA值，结果将为NA。

新增于版本 3.4.0。

另请参阅

pyspark.pandas.Series.groupby
pyspark.pandas.DataFrame.groupby

示例

           >>> df = ps.DataFrame({"A": [1, 2, 1, 2], "B": [True, False, False, True],
...                    "C": [3, 3, 4, 4], "D": ["a", "b", "a", "a"]})
>>> df
   A      B  C  D
0  1   True  3  a
1  2  False  3  b
2  1  False  4  a
3  2   True  4  a

          

           >>> df.groupby("A").first().sort_index()
       B  C  D
A
1   True  3  a
2  False  3  b

          

当设置 numeric_only 为 True 时，仅包含 float、int、boolean 列。

           >>> df.groupby("A").first(numeric_only=True).sort_index()
       B  C
A
1   True  3
2  False  3

          

           >>> df.groupby("D").first().sort_index()
   A      B  C
D
a  1   True  3
b  2  False  3

          

           >>> df.groupby("D").first(min_count=3).sort_index()
     A     B    C
D
a  1.0  True  3.0
b  NaN  None  NaN

          

pyspark.pandas.groupby.GroupBy.filter

pyspark.pandas.groupby.GroupBy.last