pyspark.sql.DataFrame.dropna ¶

DataFrame. dropna ( how : str = 'any' , thresh : Optional [ int ] = None , subset : Union[str, Tuple[str, …], List[str], None] = None ) → pyspark.sql.dataframe.DataFrame [source] ¶

返回一个新的 DataFrame ，省略包含空值的行。 DataFrame.dropna() 和 DataFrameNaFunctions.drop() 是彼此的别名。

新增于版本 1.3.1。

在版本 3.4.0 中更改: 支持 Spark Connect。

Parameters

how str, optional: ‘any’ 或 ‘all’。如果为 ‘any’，则如果某行包含任何空值，则删除该行。如果为 ‘all’，则仅当某行的所有值均为空时，才删除该行。
thresh: int, optional: 默认 None 如果指定，删除少于 thresh 个非空值的行。这将覆盖 how 参数。
subset str, tuple or list, optional: 可选的列名列表。

Returns

DataFrame: 排除仅包含空值的行的DataFrame。

示例

           >>> from pyspark.sql import Row
>>> df = spark.createDataFrame([
...     Row(age=10, height=80, name="Alice"),
...     Row(age=5, height=None, name="Bob"),
...     Row(age=None, height=None, name="Tom"),
...     Row(age=None, height=None, name=None),
... ])
>>> df.na.drop().show()
+---+------+-----+
|age|height| name|
+---+------+-----+
| 10|    80|Alice|
+---+------+-----+

          

pyspark.sql.DataFrame.drop_duplicates

pyspark.sql.DataFrame.dtypes