DataFrame

Constructor

DataFrame ([数据, 索引, 列, 数据类型, 复制])

pandas-on-Spark DataFrame 在逻辑上对应于 pandas DataFrame。

Attributes and underlying data

DataFrame.index

DataFrame 的索引(行标签)列。

DataFrame.info ([详细, 缓冲区, 最大列数])

打印DataFrame的简明摘要。

DataFrame.columns

DataFrame 的列标签。

DataFrame.empty

如果当前DataFrame为空,则返回true。

DataFrame.dtypes

返回DataFrame中的数据类型。

DataFrame.shape

返回一个表示DataFrame维度的元组。

DataFrame.axes

返回一个表示DataFrame轴的列表。

DataFrame.ndim

返回一个表示数组维数数量的整数。

DataFrame.size

返回一个表示此对象中元素数量的整数。

DataFrame.select_dtypes ([include, exclude])

返回基于列数据类型的DataFrame列的子集。

DataFrame.values

返回DataFrame或Series的Numpy表示形式。

Conversion

DataFrame.copy ([deep])

复制此对象的索引和数据。

DataFrame.isna ()

检测当前数据框中项目的缺失值。

DataFrame.astype (dtype)

将 pandas-on-Spark 对象转换为指定的数据类型 dtype

DataFrame.isnull ()

检测当前数据框中项目的缺失值。

DataFrame.notna ()

检测当前数据框中项目的非缺失值。

DataFrame.notnull ()

检测当前数据框中项目的非缺失值。

DataFrame.bool ()

返回当前对象中单个元素的布尔值。

Indexing, iteration

DataFrame.at

访问行/列标签对的一个单一值。

DataFrame.iat

通过整数位置访问行/列对的单个值。

DataFrame.head ([n])

返回前 n 行。

DataFrame.idxmax ([axis])

返回沿指定轴的第一个最大值的索引。

DataFrame.idxmin ([axis])

返回沿指定轴的最小值的第一个出现的索引。

DataFrame.loc

通过标签或布尔序列访问一组行和列。

DataFrame.iloc

纯基于整数位置的索引,用于按位置选择。

DataFrame.insert (位置, 列, 值[, …])

在指定位置向DataFrame插入列。

DataFrame.items ()

遍历(列名,Series)对。

DataFrame.iteritems ()

这是 items 的别名。

DataFrame.iterrows ()

遍历 DataFrame 行作为 (索引, Series) 对。

DataFrame.itertuples ([index, name])

遍历DataFrame行作为命名元组。

DataFrame.keys ()

返回列的别名。

DataFrame.pop (项)

返回项目并从框架中删除。

DataFrame.tail ([n])

返回最后 n 行。

DataFrame.xs (键[, 轴, 层级])

返回DataFrame的横截面。

DataFrame.get (键[, 默认值])

从对象中获取给定键的项(DataFrame列、Panel切片等)。

DataFrame.where (cond[, other, axis])

在条件为假时替换值。

DataFrame.mask (cond[, other])

在条件为真时替换值。

DataFrame.query (expr[, inplace])

使用布尔表达式查询DataFrame的列。

Binary operator functions

DataFrame.add (其他)

获取数据框与其他对象的逐元素加法(二元运算符 + )。

DataFrame.radd (其他)

获取数据框与其他数据框的逐元素相加结果(二元运算符 + )。

DataFrame.div (其他)

获取数据框与其他对象的浮点数除法,逐元素进行(二元运算符 / )。

DataFrame.rdiv (其他)

获取数据框和其他元素的浮点除法(二元运算符 / )。

DataFrame.truediv (其他)

获取数据框和其他对象的浮点数除法,逐元素进行(二元运算符 / )。

DataFrame.rtruediv (其他)

获取数据框和其他对象的浮点数除法,逐元素进行(二元运算符 / )。

DataFrame.mul (其他)

获取数据框与其他对象的逐元素乘法(二元运算符 * )。

DataFrame.rmul (其他)

获取数据框与其他对象的逐元素乘法(二元运算符 * )。

DataFrame.sub (其他)

获取数据框与其他对象的元素减法(二元运算符 - )。

DataFrame.rsub (其他)

获取数据框与其他对象的元素减法(二元运算符 - )。

DataFrame.pow (其他)

获取数据框系列和其他元素的指数幂,逐元素操作(二元运算符 ** )。

DataFrame.rpow (其他)

获取数据框和其他对象的指数幂,逐元素操作(二元运算符 ** )。

DataFrame.mod (其他)

获取数据框和其他对象的模数,逐元素进行(二元运算符 % )。

DataFrame.rmod (其他)

获取数据框和其他对象的模数,逐元素进行(二元运算符 % )。

DataFrame.floordiv (其他)

获取数据框和其他对象的整数除法,逐元素进行(二元运算符 // )。

DataFrame.rfloordiv (其他)

获取数据框和其他对象的整数除法,逐元素进行(二元运算符 // )。

DataFrame.lt (其他)

比较当前值是否小于另一个值。

DataFrame.gt (其他)

比较当前值是否大于另一个值。

DataFrame.le (其他)

比较当前值是否小于或等于另一个值。

DataFrame.ge (其他)

比较当前值是否大于或等于另一个值。

DataFrame.ne (其他)

比较当前值是否不等于另一个值。

DataFrame.eq (其他)

比较当前值是否等于另一个值。

DataFrame.dot (其他)

计算DataFrame与其他矩阵的乘法。

DataFrame.combine_first (其他)

使用 other 中相同位置的值更新空元素。

Function application, GroupBy & Window

DataFrame.apply (func[, axis, args])

沿DataFrame的轴应用函数。

DataFrame.applymap (func)

对数据框的每个元素应用一个函数。

DataFrame.pipe (函数, *参数, **关键字参数)

应用函数(self, *args, **kwargs)。

DataFrame.agg (func)

在指定轴上使用一个或多个操作进行聚合。

DataFrame.aggregate (func)

在指定轴上使用一个或多个操作进行聚合。

DataFrame.groupby (by[, axis, as_index, dropna])

使用一个或多个列对DataFrame或Series进行分组。

DataFrame.rolling (窗口[, 最小周期])

提供滚动变换。

DataFrame.expanding ([min_periods])

提供扩展转换。

DataFrame.transform (func[, axis])

在自身上调用 func ,生成一个具有转换值的序列,并且该序列的长度与其输入相同。

Computations / Descriptive Stats

DataFrame.abs ()

返回一个包含每个元素绝对数值的Series/DataFrame。

DataFrame.all ([axis, bool_only, skipna])

返回是否所有元素都为真。

DataFrame.any ([axis, bool_only])

返回是否有任何元素为真。

DataFrame.clip ([下限, 上限])

在输入阈值处修剪值。

DataFrame.corr ([方法, 最小周期])

计算列之间的成对相关性,排除NA/null值。

DataFrame.corrwith (其他[, 轴, 删除, 方法])

计算成对相关性。

DataFrame.count ([axis, numeric_only])

计算每列的非NA单元格数量。

DataFrame.cov ([min_periods, ddof])

计算列之间的成对协方差,排除NA/null值。

DataFrame.describe ([percentiles])

生成描述性统计数据,总结数据集分布的集中趋势、离散度和形状,排除 NaN 值。

DataFrame.ewm ([com, span, halflife, alpha, …])

提供指数加权窗口变换。

DataFrame.kurt ([axis, skipna, numeric_only])

返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。

DataFrame.kurtosis ([axis, skipna, numeric_only])

返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。

DataFrame.mad ([axis])

返回值的平均绝对偏差。

DataFrame.max ([axis, skipna, numeric_only])

返回值的最大值。

DataFrame.mean ([axis, skipna, numeric_only])

返回值的平均值。

DataFrame.min ([axis, skipna, numeric_only])

返回值的最小值。

DataFrame.median ([axis, skipna, …])

返回请求轴上值的中位数。

DataFrame.mode ([axis, numeric_only, dropna])

获取沿所选轴的每个元素的众数。

DataFrame.pct_change ([periods])

当前元素与前一个元素之间的百分比变化。

DataFrame.prod ([axis, skipna, numeric_only, …])

返回值的乘积。

DataFrame.product ([axis, skipna, …])

返回值的乘积。

DataFrame.quantile ([q, axis, numeric_only, …])

返回给定分位数处的值。

DataFrame.rank ([method, ascending, numeric_only])

沿轴计算数值数据的排名(1到n)。

DataFrame.nunique ([axis, dropna, approx, rsd])

返回对象中唯一元素的数量。

DataFrame.sem ([axis, skipna, ddof, numeric_only])

返回请求轴上的平均值的无偏标准误差。

DataFrame.skew ([axis, skipna, numeric_only])

返回通过N-1标准化的无偏斜度。

DataFrame.sum ([axis, skipna, numeric_only, …])

返回值的总和。

DataFrame.std ([axis, skipna, ddof, numeric_only])

返回样本标准差。

DataFrame.var ([axis, ddof, numeric_only])

返回无偏方差。

DataFrame.cummin ([skipna])

返回DataFrame或Series轴上的累积最小值。

DataFrame.cummax ([skipna])

返回 DataFrame 或 Series 轴上的累积最大值。

DataFrame.cumsum ([skipna])

返回 DataFrame 或 Series 轴上的累计和。

DataFrame.cumprod ([skipna])

返回 DataFrame 或 Series 轴上的累积乘积。

DataFrame.round ([小数位数])

将DataFrame四舍五入到可变的小数位数。

DataFrame.diff ([periods, axis])

元素的第一个离散差分。

DataFrame.eval (expr[, inplace])

评估一个描述对DataFrame列进行操作的字符串。

Reindexing / Selection / Label manipulation

DataFrame.add_prefix (前缀)

使用字符串 前缀 作为标签前缀。

DataFrame.add_suffix (后缀)

后缀标签与字符串 后缀

DataFrame.align (other[, join, axis, copy])

使用指定的连接方法将两个对象在其轴上对齐。

DataFrame.at_time (时间[, asof, 轴])

选择特定时间点的值(例如:上午9:30)。

DataFrame.between_time (开始时间, 结束时间)

选择一天中特定时间段内的值(例如:上午9:00-9:30)。

DataFrame.drop ([labels, axis, index, columns])

从列中删除指定的标签。

DataFrame.droplevel (level[, axis])

返回移除请求的索引/列级别后的DataFrame。

DataFrame.drop_duplicates ([subset, keep, …])

返回删除重复行后的DataFrame,可选地仅考虑某些列。

DataFrame.duplicated ([subset, keep])

返回布尔序列,表示重复的行,可以选择仅考虑某些列。

DataFrame.equals (其他)

比较当前值是否等于另一个值。

DataFrame.filter ([items, like, regex, axis])

根据指定索引中的标签对数据框的行或列进行子集化。

DataFrame.first (偏移量)

根据日期偏移量选择时间序列数据的前几个周期。

DataFrame.head ([n])

返回前 n 行。

DataFrame.last (偏移量)

根据日期偏移选择时间序列数据的最终周期。

DataFrame.reindex ([labels, index, columns, …])

使 DataFrame 符合新索引,并可选择填充逻辑,在前一个索引中没有值的位置放置 NA/NaN。

DataFrame.reindex_like (其他[, 复制])

返回一个与另一个对象具有匹配索引的DataFrame。

DataFrame.rename ([mapper, index, columns, …])

更改坐标轴标签。

DataFrame.rename_axis ([mapper, index, …])

设置索引或列的轴名称。

DataFrame.reset_index ([level, drop, …])

重置索引,或重置其某一层级。

DataFrame.set_index (键[, 删除, 追加, …])

使用一个或多个现有列设置DataFrame索引(行标签)。

DataFrame.swapaxes (i, j[, copy])

互换轴并适当交换值轴。

DataFrame.swaplevel ([i, j, axis])

在特定轴上的MultiIndex中交换级别i和j。

DataFrame.take (indices[, axis])

返回沿轴的给定 位置 索引中的元素。

DataFrame.isin (值)

DataFrame中的每个元素是否包含在值中。

DataFrame.sample ([n, frac, replace, …])

从对象的轴中返回一个随机样本项。

DataFrame.truncate ([before, after, axis, copy])

在某个索引值之前和之后截断一个Series或DataFrame。

Missing data handling

DataFrame.backfill ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 使用 method=`bfill`

DataFrame.dropna ([axis, how, thresh, …])

移除缺失值。

DataFrame.fillna ([value, method, axis, …])

填充NA/NaN值。

DataFrame.replace ([to_replace, value, …])

返回一个新的DataFrame,用另一个值替换某个值。

DataFrame.bfill ([axis, inplace, limit])

同义于 DataFrame.fillna() Series.fillna() 使用 method=`bfill`

DataFrame.ffill ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 使用 method=`ffill`

DataFrame.interpolate ([方法, 限制, …])

使用插值方法填充NaN值。

DataFrame.pad ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 使用 method=`ffill`

Reshaping, sorting, transposing

DataFrame.pivot_table ([values, index, …])

创建一个电子表格样式的数据透视表作为DataFrame。

DataFrame.pivot ([index, columns, values])

返回按给定索引/列值组织的重塑后的DataFrame。

DataFrame.sort_index ([轴, 级别, …])

按标签排序对象(沿轴)

DataFrame.sort_values (按[, 升序, …])

按任意轴的值排序。

DataFrame.nlargest (n, columns[, keep])

返回按 降序排列的前 n 行。

DataFrame.nsmallest (n, columns[, keep])

返回按 升序排列的前 n 行。

DataFrame.stack ()

将指定级别从列堆叠到索引。

DataFrame.unstack ()

透视(必然是分层的)索引标签。

DataFrame.melt ([id_vars, value_vars, …])

将DataFrame从宽格式透视为长格式,可以选择保留标识变量集。

DataFrame.explode (列[, ignore_index])

将类似列表的每个元素转换为一行,并复制索引值。

DataFrame.squeeze ([轴])

将一维轴对象压缩为标量。

DataFrame.T

转置索引和列。

DataFrame.transpose ()

转置索引和列。

Combining / joining / merging

DataFrame.append (其他[, ignore_index, …])

将其他对象的行追加到调用者的末尾,返回一个新对象。

DataFrame.assign (**kwargs)

将新列分配给DataFrame。

DataFrame.merge (右[, 如何, 在, 左在, …])

合并具有数据库样式连接的DataFrame对象。

DataFrame.join (右[, on, how, lsuffix, …])

连接另一个DataFrame的列。

DataFrame.update (other[, join, overwrite])

使用另一个DataFrame中的非NA值就地修改。

Serialization / IO / Conversion

DataFrame.from_dict (数据[, 方向, 数据类型, …])

从数组类或字典的字典构造DataFrame。

DataFrame.from_records (数据[, 索引, …])

将结构化或记录的ndarray转换为DataFrame。

DataFrame.to_table (名称[, 格式, 模式, …])

将DataFrame写入Spark表。

DataFrame.to_delta (路径[, 模式, …])

将DataFrame写入为Delta Lake表。

DataFrame.to_parquet (路径[, 模式, …])

将DataFrame写入Parquet文件或目录。

DataFrame.to_spark_io ([路径, 格式, 模式, …])

将DataFrame写入Spark数据源。

DataFrame.to_csv ([路径, 分隔符, 空值表示, …])

将对象写入逗号分隔值(csv)文件。

DataFrame.to_orc (路径[, 模式, …])

将 DataFrame 写入 ORC 格式。

DataFrame.to_pandas ()

返回一个 pandas DataFrame。

DataFrame.to_html ([buf, columns, col_space, …])

将DataFrame渲染为HTML表格。

DataFrame.to_numpy ()

表示此 DataFrame 或 Series 中的值的 NumPy ndarray。

DataFrame.to_spark ([index_col])

与Spark相关的功能。

DataFrame.to_string ([buf, columns, …])

将DataFrame渲染为控制台友好的表格输出。

DataFrame.to_json ([路径, 压缩, …])

将对象转换为JSON字符串。

DataFrame.to_dict ([orient, into])

将DataFrame转换为字典。

DataFrame.to_excel (excel_writer[, …])

将对象写入 Excel 工作表。

DataFrame.to_clipboard ([excel, sep])

将对象复制到系统剪贴板。

DataFrame.to_markdown ([buf, mode])

以Markdown友好格式打印Series或DataFrame。

DataFrame.to_records ([index, column_dtypes, …])

将DataFrame转换为NumPy记录数组。

DataFrame.to_latex ([buf, columns, …])

将对象渲染为 LaTeX 表格环境表。

DataFrame.style

属性返回一个包含用于构建DataFrame的样式化HTML表示的方法的Styler对象。

Plotting

DataFrame.plot 既是一个可调用的方法,也是一个命名空间属性,用于特定形式的绘图方法,如 DataFrame.plot.

DataFrame.plot

别名 pyspark.pandas.plot.core.PandasOnSparkPlotAccessor

DataFrame.plot.area ([x, y])

绘制堆积面积图。

DataFrame.plot.barh ([x, y])

制作一个水平条形图。

DataFrame.plot.bar ([x, y])

垂直条形图。

DataFrame.plot.hist ([bins])

绘制DataFrame列的一个直方图。

DataFrame.plot.box (**kwds)

绘制 Series 列的箱线图。

DataFrame.plot.line ([x, y])

将DataFrame/Series绘制为线条。

DataFrame.plot.pie (**kwds)

生成一个饼图。

DataFrame.plot.scatter (x, y, **kwds)

创建一个具有不同标记点大小和颜色的散点图。

DataFrame.plot.density ([bw_method, ind])

使用高斯核生成核密度估计图。

DataFrame.hist ([bins])

绘制DataFrame列的一个直方图。

DataFrame.boxplot (**kwds)

绘制 Series 列的箱线图。

DataFrame.kde ([bw_method, ind])

使用高斯核生成核密度估计图。

Pandas-on-Spark specific

DataFrame.pandas_on_spark 提供了仅在 Spark 上的 pandas API 中存在的 pandas-on-Spark 特定功能。 这些功能可以通过 DataFrame.pandas_on_spark.<函数/属性> 访问。

DataFrame.pandas_on_spark.apply_batch (func)

应用一个函数,该函数接受 pandas DataFrame 并输出 pandas DataFrame。

DataFrame.pandas_on_spark.transform_batch (…)

使用一个函数来转换块,该函数接收 pandas DataFrame 并输出 pandas DataFrame。