Core Classes

SparkSession (sparkContext[, jsparkSession, …])

使用 Dataset 和 DataFrame API 编程 Spark 的入口点。

Catalog (sparkSession)

面向用户的目录API,可以通过 SparkSession.catalog 访问。

DataFrame (jdf, sql_ctx)

一个按名称分组的分布式数据集合。

Column (jc)

DataFrame中的一列。

Observation ([名称])

用于观察(命名)指标的类在一个 DataFrame 中。

Row

一个行在 DataFrame 中。

GroupedData (jgd, df)

一组用于在 DataFrame 上进行聚合的方法,由 DataFrame.groupBy() 创建。

PandasCogroupedOps (gd1, gd2)

两个 GroupedData 的逻辑分组,由 GroupedData.cogroup() 创建。

DataFrameNaFunctions (df)

处理 DataFrame 中缺失数据的功能。

DataFrameStatFunctions (df)

统计函数的功能与 DataFrame

Window

用于在数据框中定义窗口的实用函数。

DataFrameReader (spark)

接口用于从外部存储系统加载 DataFrame (例如。

DataFrameWriter (df)

用于将 DataFrame 写入外部存储系统的接口(例如。

DataFrameWriterV2 (df, table)

接口用于通过v2 API 将类: pyspark.sql.dataframe.DataFrame 写入外部存储。

UDFRegistration (sparkSession)

用户定义函数注册的包装器。

UDTFRegistration (sparkSession)

用户定义表函数注册的封装。

udf.UserDefinedFunction (函数[, 返回类型, …])

在Python中定义用户自定义函数

udtf.UserDefinedTableFunction (func, returnType)

用户定义的表函数在Python中