pyspark.sql.DataFrame.dropna

DataFrame. dropna ( how : str = 'any' , thresh : Optional [ int ] = None , subset : Union[str, Tuple[str, …], List[str], None] = None ) → pyspark.sql.dataframe.DataFrame [source]

返回一个新的 DataFrame ,省略包含空值的行。 DataFrame.dropna() DataFrameNaFunctions.drop() 是彼此的别名。

新增于版本 1.3.1。

在版本 3.4.0 中更改: 支持 Spark Connect。

Parameters
how str, optional

‘any’ 或 ‘all’。 如果为 ‘any’,则如果某行包含任何空值,则删除该行。 如果为 ‘all’,则仅当某行的所有值均为空时,才删除该行。

thresh: int, optional

默认 None 如果指定,删除少于 thresh 个非空值的行。 这将覆盖 how 参数。

subset str, tuple or list, optional

可选的列名列表。

Returns
DataFrame

排除仅包含空值的行的DataFrame。

示例

>>> from pyspark.sql import Row
>>> df = spark.createDataFrame([
...     Row(age=10, height=80, name="Alice"),
...     Row(age=5, height=None, name="Bob"),
...     Row(age=None, height=None, name="Tom"),
...     Row(age=None, height=None, name=None),
... ])
>>> df.na.drop().show()
+---+------+-----+
|age|height| name|
+---+------+-----+
| 10|    80|Alice|
+---+------+-----+