pyspark.sql.DataFrame.dropna ¶
-
DataFrame.
dropna
( how : str = 'any' , thresh : Optional [ int ] = None , subset : Union[str, Tuple[str, …], List[str], None] = None ) → pyspark.sql.dataframe.DataFrame [source] ¶ -
返回一个新的
DataFrame
,省略包含空值的行。DataFrame.dropna()
和DataFrameNaFunctions.drop()
是彼此的别名。新增于版本 1.3.1。
在版本 3.4.0 中更改: 支持 Spark Connect。
- Parameters
-
- how str, optional
-
‘any’ 或 ‘all’。 如果为 ‘any’,则如果某行包含任何空值,则删除该行。 如果为 ‘all’,则仅当某行的所有值均为空时,才删除该行。
- thresh: int, optional
-
默认 None 如果指定,删除少于 thresh 个非空值的行。 这将覆盖 how 参数。
- subset str, tuple or list, optional
-
可选的列名列表。
- Returns
-
-
DataFrame
-
排除仅包含空值的行的DataFrame。
-
示例
>>> from pyspark.sql import Row >>> df = spark.createDataFrame([ ... Row(age=10, height=80, name="Alice"), ... Row(age=5, height=None, name="Bob"), ... Row(age=None, height=None, name="Tom"), ... Row(age=None, height=None, name=None), ... ]) >>> df.na.drop().show() +---+------+-----+ |age|height| name| +---+------+-----+ | 10| 80|Alice| +---+------+-----+