General functions

Working with options

reset_option (键)

将一个选项重置为其默认值。

get_option (键[, 默认值])

检索指定选项的值。

set_option (键, 值)

设置指定选项的值。

option_context (*args)

上下文管理器,用于在 with 语句上下文中临时设置选项。

Data manipulations and SQL

melt (frame[, id_vars, value_vars, var_name, …])

将DataFrame从宽格式透视为长格式,可以选择保留标识变量集。

merge (obj, right[, how, on, left_on, …])

合并具有数据库样式连接的DataFrame对象。

merge_asof (左, 右[, 在, 左_在, …])

执行asof合并。

get_dummies (数据[, 前缀, 前缀分隔符, …])

将分类变量转换为哑变量/指示变量,也称为独热编码。

concat (objs[, axis, join, ignore_index, sort])

沿特定轴连接 pandas-on-Spark 对象,并可选择沿其他轴进行集合逻辑操作。

sql (查询[, index_col, args])

执行一个SQL查询并将结果作为pandas-on-Spark DataFrame返回。

broadcast (obj)

将一个DataFrame标记为足够小以用于广播连接。

Top-level missing data

isna (对象)

检测类数组对象中的缺失值。

isnull (对象)

检测类似数组对象中的缺失值。

notna (对象)

检测现有的(非缺失的)值。

notnull (对象)

检测现有的(非缺失的)值。

Top-level dealing with numeric data

to_numeric (arg[, errors])

将参数转换为数值类型。

Top-level dealing with datetimelike data

to_datetime (arg[, errors, format, unit, …])

将参数转换为日期时间。

date_range ([开始, 结束, 周期, 频率, 时区, …])

返回一个固定频率的DatetimeIndex。

to_timedelta (arg[, unit, errors])

将参数转换为时间差。

timedelta_range ([开始, 结束, 周期, 频率, …])

返回一个固定频率的TimedeltaIndex,默认频率为天。