pyspark.pandas.groupby.GroupBy.first ¶
-
GroupBy.
first
( numeric_only : Optional [ bool ] = False , min_count : int = - 1 ) → FrameLike [source] ¶ -
计算分组值的第一个值。
新增于版本 3.3.0。
- Parameters
-
- numeric_only bool, default False
-
仅包含浮点数、整数、布尔类型的列。如果为None,将尝试使用所有列,然后仅使用数值数据。
新增于版本 3.4.0。
- min_count int, default -1
-
执行操作所需的有效值数量。如果少于
min_count
个非NA值,结果将为NA。新增于版本 3.4.0。
示例
>>> df = ps.DataFrame({"A": [1, 2, 1, 2], "B": [True, False, False, True], ... "C": [3, 3, 4, 4], "D": ["a", "b", "a", "a"]}) >>> df A B C D 0 1 True 3 a 1 2 False 3 b 2 1 False 4 a 3 2 True 4 a
>>> df.groupby("A").first().sort_index() B C D A 1 True 3 a 2 False 3 b
当设置 numeric_only 为 True 时,仅包含 float、int、boolean 列。
>>> df.groupby("A").first(numeric_only=True).sort_index() B C A 1 True 3 2 False 3
>>> df.groupby("D").first().sort_index() A B C D a 1 True 3 b 2 False 3
>>> df.groupby("D").first(min_count=3).sort_index() A B C D a 1.0 True 3.0 b NaN None NaN