DataFrame — PySpark 3.5.3 documentation

Constructor ¶

DataFrame ([数据, 索引, 列, 数据类型, 复制])

pandas-on-Spark DataFrame 在逻辑上对应于 pandas DataFrame。

Attributes and underlying data ¶

`DataFrame.index`	DataFrame 的索引（行标签）列。
`DataFrame.info` ([详细, 缓冲区, 最大列数])	打印DataFrame的简明摘要。
`DataFrame.columns`	DataFrame 的列标签。
`DataFrame.empty`	如果当前DataFrame为空，则返回true。

`DataFrame.dtypes`	返回DataFrame中的数据类型。
`DataFrame.shape`	返回一个表示DataFrame维度的元组。
`DataFrame.axes`	返回一个表示DataFrame轴的列表。
`DataFrame.ndim`	返回一个表示数组维数数量的整数。
`DataFrame.size`	返回一个表示此对象中元素数量的整数。
`DataFrame.select_dtypes` ([include, exclude])	返回基于列数据类型的DataFrame列的子集。
`DataFrame.values`	返回DataFrame或Series的Numpy表示形式。

Conversion ¶

`DataFrame.copy` ([deep])	复制此对象的索引和数据。
`DataFrame.isna` ()	检测当前数据框中项目的缺失值。
`DataFrame.astype` (dtype)	将 pandas-on-Spark 对象转换为指定的数据类型 `dtype` 。
`DataFrame.isnull` ()	检测当前数据框中项目的缺失值。
`DataFrame.notna` ()	检测当前数据框中项目的非缺失值。
`DataFrame.notnull` ()	检测当前数据框中项目的非缺失值。
`DataFrame.bool` ()	返回当前对象中单个元素的布尔值。

Indexing, iteration ¶

`DataFrame.at`	访问行/列标签对的一个单一值。
`DataFrame.iat`	通过整数位置访问行/列对的单个值。
`DataFrame.head` ([n])	返回前 n 行。
`DataFrame.idxmax` ([axis])	返回沿指定轴的第一个最大值的索引。
`DataFrame.idxmin` ([axis])	返回沿指定轴的最小值的第一个出现的索引。
`DataFrame.loc`	通过标签或布尔序列访问一组行和列。
`DataFrame.iloc`	纯基于整数位置的索引，用于按位置选择。
`DataFrame.insert` (位置, 列, 值[, …])	在指定位置向DataFrame插入列。
`DataFrame.items` ()	遍历（列名，Series）对。
`DataFrame.iteritems` ()	这是 `items` 的别名。
`DataFrame.iterrows` ()	遍历 DataFrame 行作为 (索引, Series) 对。
`DataFrame.itertuples` ([index, name])	遍历DataFrame行作为命名元组。
`DataFrame.keys` ()	返回列的别名。
`DataFrame.pop` (项)	返回项目并从框架中删除。
`DataFrame.tail` ([n])	返回最后 n 行。
`DataFrame.xs` (键[, 轴, 层级])	返回DataFrame的横截面。
`DataFrame.get` (键[, 默认值])	从对象中获取给定键的项（DataFrame列、Panel切片等）。
`DataFrame.where` (cond[, other, axis])	在条件为假时替换值。
`DataFrame.mask` (cond[, other])	在条件为真时替换值。
`DataFrame.query` (expr[, inplace])	使用布尔表达式查询DataFrame的列。

Binary operator functions ¶

`DataFrame.add` (其他)	获取数据框与其他对象的逐元素加法（二元运算符 + ）。
`DataFrame.radd` (其他)	获取数据框与其他数据框的逐元素相加结果（二元运算符 + ）。
`DataFrame.div` (其他)	获取数据框与其他对象的浮点数除法，逐元素进行（二元运算符 / ）。
`DataFrame.rdiv` (其他)	获取数据框和其他元素的浮点除法（二元运算符 / ）。
`DataFrame.truediv` (其他)	获取数据框和其他对象的浮点数除法，逐元素进行（二元运算符 / ）。
`DataFrame.rtruediv` (其他)	获取数据框和其他对象的浮点数除法，逐元素进行（二元运算符 / ）。
`DataFrame.mul` (其他)	获取数据框与其他对象的逐元素乘法（二元运算符 * ）。
`DataFrame.rmul` (其他)	获取数据框与其他对象的逐元素乘法（二元运算符 * ）。
`DataFrame.sub` (其他)	获取数据框与其他对象的元素减法（二元运算符 - ）。
`DataFrame.rsub` (其他)	获取数据框与其他对象的元素减法（二元运算符 - ）。
`DataFrame.pow` (其他)	获取数据框系列和其他元素的指数幂，逐元素操作（二元运算符 ** ）。
`DataFrame.rpow` (其他)	获取数据框和其他对象的指数幂，逐元素操作（二元运算符 ** ）。
`DataFrame.mod` (其他)	获取数据框和其他对象的模数，逐元素进行（二元运算符 % ）。
`DataFrame.rmod` (其他)	获取数据框和其他对象的模数，逐元素进行（二元运算符 % ）。
`DataFrame.floordiv` (其他)	获取数据框和其他对象的整数除法，逐元素进行（二元运算符 // ）。
`DataFrame.rfloordiv` (其他)	获取数据框和其他对象的整数除法，逐元素进行（二元运算符 // ）。
`DataFrame.lt` (其他)	比较当前值是否小于另一个值。
`DataFrame.gt` (其他)	比较当前值是否大于另一个值。
`DataFrame.le` (其他)	比较当前值是否小于或等于另一个值。
`DataFrame.ge` (其他)	比较当前值是否大于或等于另一个值。
`DataFrame.ne` (其他)	比较当前值是否不等于另一个值。
`DataFrame.eq` (其他)	比较当前值是否等于另一个值。
`DataFrame.dot` (其他)	计算DataFrame与其他矩阵的乘法。
`DataFrame.combine_first` (其他)	使用 other 中相同位置的值更新空元素。

Function application, GroupBy & Window ¶

`DataFrame.apply` (func[, axis, args])	沿DataFrame的轴应用函数。
`DataFrame.applymap` (func)	对数据框的每个元素应用一个函数。
`DataFrame.pipe` (函数, 参数, *关键字参数)	应用函数(self, args, *kwargs)。
`DataFrame.agg` (func)	在指定轴上使用一个或多个操作进行聚合。
`DataFrame.aggregate` (func)	在指定轴上使用一个或多个操作进行聚合。
`DataFrame.groupby` (by[, axis, as_index, dropna])	使用一个或多个列对DataFrame或Series进行分组。
`DataFrame.rolling` (窗口[, 最小周期])	提供滚动变换。
`DataFrame.expanding` ([min_periods])	提供扩展转换。
`DataFrame.transform` (func[, axis])	在自身上调用 `func` ，生成一个具有转换值的序列，并且该序列的长度与其输入相同。

Computations / Descriptive Stats ¶

`DataFrame.abs` ()	返回一个包含每个元素绝对数值的Series/DataFrame。
`DataFrame.all` ([axis, bool_only, skipna])	返回是否所有元素都为真。
`DataFrame.any` ([axis, bool_only])	返回是否有任何元素为真。
`DataFrame.clip` ([下限, 上限])	在输入阈值处修剪值。
`DataFrame.corr` ([方法, 最小周期])	计算列之间的成对相关性，排除NA/null值。
`DataFrame.corrwith` (其他[, 轴, 删除, 方法])	计算成对相关性。
`DataFrame.count` ([axis, numeric_only])	计算每列的非NA单元格数量。
`DataFrame.cov` ([min_periods, ddof])	计算列之间的成对协方差，排除NA/null值。
`DataFrame.describe` ([percentiles])	生成描述性统计数据，总结数据集分布的集中趋势、离散度和形状，排除 `NaN` 值。
`DataFrame.ewm` ([com, span, halflife, alpha, …])	提供指数加权窗口变换。
`DataFrame.kurt` ([axis, skipna, numeric_only])	返回使用Fisher定义的无偏峰度（正态分布的峰度 == 0.0）。
`DataFrame.kurtosis` ([axis, skipna, numeric_only])	返回使用Fisher定义的无偏峰度（正态分布的峰度 == 0.0）。
`DataFrame.mad` ([axis])	返回值的平均绝对偏差。
`DataFrame.max` ([axis, skipna, numeric_only])	返回值的最大值。
`DataFrame.mean` ([axis, skipna, numeric_only])	返回值的平均值。
`DataFrame.min` ([axis, skipna, numeric_only])	返回值的最小值。
`DataFrame.median` ([axis, skipna, …])	返回请求轴上值的中位数。
`DataFrame.mode` ([axis, numeric_only, dropna])	获取沿所选轴的每个元素的众数。
`DataFrame.pct_change` ([periods])	当前元素与前一个元素之间的百分比变化。
`DataFrame.prod` ([axis, skipna, numeric_only, …])	返回值的乘积。
`DataFrame.product` ([axis, skipna, …])	返回值的乘积。
`DataFrame.quantile` ([q, axis, numeric_only, …])	返回给定分位数处的值。
`DataFrame.rank` ([method, ascending, numeric_only])	沿轴计算数值数据的排名（1到n）。
`DataFrame.nunique` ([axis, dropna, approx, rsd])	返回对象中唯一元素的数量。
`DataFrame.sem` ([axis, skipna, ddof, numeric_only])	返回请求轴上的平均值的无偏标准误差。
`DataFrame.skew` ([axis, skipna, numeric_only])	返回通过N-1标准化的无偏斜度。
`DataFrame.sum` ([axis, skipna, numeric_only, …])	返回值的总和。
`DataFrame.std` ([axis, skipna, ddof, numeric_only])	返回样本标准差。
`DataFrame.var` ([axis, ddof, numeric_only])	返回无偏方差。
`DataFrame.cummin` ([skipna])	返回DataFrame或Series轴上的累积最小值。
`DataFrame.cummax` ([skipna])	返回 DataFrame 或 Series 轴上的累积最大值。
`DataFrame.cumsum` ([skipna])	返回 DataFrame 或 Series 轴上的累计和。
`DataFrame.cumprod` ([skipna])	返回 DataFrame 或 Series 轴上的累积乘积。
`DataFrame.round` ([小数位数])	将DataFrame四舍五入到可变的小数位数。
`DataFrame.diff` ([periods, axis])	元素的第一个离散差分。
`DataFrame.eval` (expr[, inplace])	评估一个描述对DataFrame列进行操作的字符串。

Reindexing / Selection / Label manipulation ¶

`DataFrame.add_prefix` (前缀)	使用字符串前缀作为标签前缀。
`DataFrame.add_suffix` (后缀)	后缀标签与字符串后缀。
`DataFrame.align` (other[, join, axis, copy])	使用指定的连接方法将两个对象在其轴上对齐。
`DataFrame.at_time` (时间[, asof, 轴])	选择特定时间点的值（例如：上午9:30）。
`DataFrame.between_time` (开始时间, 结束时间)	选择一天中特定时间段内的值（例如：上午9:00-9:30）。
`DataFrame.drop` ([labels, axis, index, columns])	从列中删除指定的标签。
`DataFrame.droplevel` (level[, axis])	返回移除请求的索引/列级别后的DataFrame。
`DataFrame.drop_duplicates` ([subset, keep, …])	返回删除重复行后的DataFrame，可选地仅考虑某些列。
`DataFrame.duplicated` ([subset, keep])	返回布尔序列，表示重复的行，可以选择仅考虑某些列。
`DataFrame.equals` (其他)	比较当前值是否等于另一个值。
`DataFrame.filter` ([items, like, regex, axis])	根据指定索引中的标签对数据框的行或列进行子集化。
`DataFrame.first` (偏移量)	根据日期偏移量选择时间序列数据的前几个周期。
`DataFrame.head` ([n])	返回前 n 行。
`DataFrame.last` (偏移量)	根据日期偏移选择时间序列数据的最终周期。
`DataFrame.reindex` ([labels, index, columns, …])	使 DataFrame 符合新索引，并可选择填充逻辑，在前一个索引中没有值的位置放置 NA/NaN。
`DataFrame.reindex_like` (其他[, 复制])	返回一个与另一个对象具有匹配索引的DataFrame。
`DataFrame.rename` ([mapper, index, columns, …])	更改坐标轴标签。
`DataFrame.rename_axis` ([mapper, index, …])	设置索引或列的轴名称。
`DataFrame.reset_index` ([level, drop, …])	重置索引，或重置其某一层级。
`DataFrame.set_index` (键[, 删除, 追加, …])	使用一个或多个现有列设置DataFrame索引（行标签）。
`DataFrame.swapaxes` (i, j[, copy])	互换轴并适当交换值轴。
`DataFrame.swaplevel` ([i, j, axis])	在特定轴上的MultiIndex中交换级别i和j。
`DataFrame.take` (indices[, axis])	返回沿轴的给定位置索引中的元素。
`DataFrame.isin` (值)	DataFrame中的每个元素是否包含在值中。
`DataFrame.sample` ([n, frac, replace, …])	从对象的轴中返回一个随机样本项。
`DataFrame.truncate` ([before, after, axis, copy])	在某个索引值之前和之后截断一个Series或DataFrame。

Missing data handling ¶

`DataFrame.backfill` ([axis, inplace, limit])	同义词为 DataFrame.fillna() 或 Series.fillna() 使用 method=`bfill` 。
`DataFrame.dropna` ([axis, how, thresh, …])	移除缺失值。
`DataFrame.fillna` ([value, method, axis, …])	填充NA/NaN值。
`DataFrame.replace` ([to_replace, value, …])	返回一个新的DataFrame，用另一个值替换某个值。
`DataFrame.bfill` ([axis, inplace, limit])	同义于 DataFrame.fillna() 或 Series.fillna() 使用 method=`bfill` 。
`DataFrame.ffill` ([axis, inplace, limit])	同义词为 DataFrame.fillna() 或 Series.fillna() 使用 method=`ffill` 。
`DataFrame.interpolate` ([方法, 限制, …])	使用插值方法填充NaN值。
`DataFrame.pad` ([axis, inplace, limit])	同义词为 DataFrame.fillna() 或 Series.fillna() 使用 method=`ffill` 。

Reshaping, sorting, transposing ¶

`DataFrame.pivot_table` ([values, index, …])	创建一个电子表格样式的数据透视表作为DataFrame。
`DataFrame.pivot` ([index, columns, values])	返回按给定索引/列值组织的重塑后的DataFrame。
`DataFrame.sort_index` ([轴, 级别, …])	按标签排序对象（沿轴）
`DataFrame.sort_values` (按[, 升序, …])	按任意轴的值排序。
`DataFrame.nlargest` (n, columns[, keep])	返回按列降序排列的前 n 行。
`DataFrame.nsmallest` (n, columns[, keep])	返回按列升序排列的前 n 行。
`DataFrame.stack` ()	将指定级别从列堆叠到索引。
`DataFrame.unstack` ()	透视（必然是分层的）索引标签。
`DataFrame.melt` ([id_vars, value_vars, …])	将DataFrame从宽格式透视为长格式，可以选择保留标识变量集。
`DataFrame.explode` (列[, ignore_index])	将类似列表的每个元素转换为一行，并复制索引值。
`DataFrame.squeeze` ([轴])	将一维轴对象压缩为标量。
`DataFrame.T`	转置索引和列。
`DataFrame.transpose` ()	转置索引和列。

Combining / joining / merging ¶

`DataFrame.append` (其他[, ignore_index, …])	将其他对象的行追加到调用者的末尾，返回一个新对象。
`DataFrame.assign` (**kwargs)	将新列分配给DataFrame。
`DataFrame.merge` (右[, 如何, 在, 左在, …])	合并具有数据库样式连接的DataFrame对象。
`DataFrame.join` (右[, on, how, lsuffix, …])	连接另一个DataFrame的列。
`DataFrame.update` (other[, join, overwrite])	使用另一个DataFrame中的非NA值就地修改。

Time series-related ¶

`DataFrame.resample` (规则[, closed, label, on])	重采样时间序列数据。
`DataFrame.shift` ([periods, fill_value])	按所需周期数移动DataFrame。
`DataFrame.first_valid_index` ()	检索第一个有效值的索引。
`DataFrame.last_valid_index` ()	返回最后一个非NA/null值的索引。

Serialization / IO / Conversion ¶

`DataFrame.from_dict` (数据[, 方向, 数据类型, …])	从数组类或字典的字典构造DataFrame。
`DataFrame.from_records` (数据[, 索引, …])	将结构化或记录的ndarray转换为DataFrame。
`DataFrame.to_table` (名称[, 格式, 模式, …])	将DataFrame写入Spark表。
`DataFrame.to_delta` (路径[, 模式, …])	将DataFrame写入为Delta Lake表。
`DataFrame.to_parquet` (路径[, 模式, …])	将DataFrame写入Parquet文件或目录。
`DataFrame.to_spark_io` ([路径, 格式, 模式, …])	将DataFrame写入Spark数据源。
`DataFrame.to_csv` ([路径, 分隔符, 空值表示, …])	将对象写入逗号分隔值（csv）文件。
`DataFrame.to_orc` (路径[, 模式, …])	将 DataFrame 写入 ORC 格式。
`DataFrame.to_pandas` ()	返回一个 pandas DataFrame。
`DataFrame.to_html` ([buf, columns, col_space, …])	将DataFrame渲染为HTML表格。
`DataFrame.to_numpy` ()	表示此 DataFrame 或 Series 中的值的 NumPy ndarray。
`DataFrame.to_spark` ([index_col])	与Spark相关的功能。
`DataFrame.to_string` ([buf, columns, …])	将DataFrame渲染为控制台友好的表格输出。
`DataFrame.to_json` ([路径, 压缩, …])	将对象转换为JSON字符串。
`DataFrame.to_dict` ([orient, into])	将DataFrame转换为字典。
`DataFrame.to_excel` (excel_writer[, …])	将对象写入 Excel 工作表。
`DataFrame.to_clipboard` ([excel, sep])	将对象复制到系统剪贴板。
`DataFrame.to_markdown` ([buf, mode])	以Markdown友好格式打印Series或DataFrame。
`DataFrame.to_records` ([index, column_dtypes, …])	将DataFrame转换为NumPy记录数组。
`DataFrame.to_latex` ([buf, columns, …])	将对象渲染为 LaTeX 表格环境表。
`DataFrame.style`	属性返回一个包含用于构建DataFrame的样式化HTML表示的方法的Styler对象。

Spark-related ¶

DataFrame.spark 提供了在 pandas 中不存在但在 Spark 中存在的功能。这些功能可以通过 DataFrame.spark.<函数/属性> 访问。

`DataFrame.spark.frame` ([index_col])	返回当前的 DataFrame 作为 Spark DataFrame。
`DataFrame.spark.cache` ()	生成并缓存当前的DataFrame。
`DataFrame.spark.persist` ([storage_level])	生成并缓存具有特定存储级别的当前DataFrame。
`DataFrame.spark.hint` (名称, *参数)	指定当前DataFrame的一些提示。
`DataFrame.spark.to_table` (名称[, 格式, …])	将DataFrame写入Spark表。
`DataFrame.spark.to_spark_io` ([路径, 格式, …])	将DataFrame写入Spark数据源。
`DataFrame.spark.apply` (func[, index_col])	应用一个接受并返回Spark DataFrame的函数。
`DataFrame.spark.repartition` (num_partitions)	返回由给定的分区表达式划分的新DataFrame。
`DataFrame.spark.coalesce` (num_partitions)	返回一个具有恰好 num_partitions 个分区的新DataFrame。

Plotting ¶

DataFrame.plot 既是一个可调用的方法，也是一个命名空间属性，用于特定形式的绘图方法，如 DataFrame.plot. 。

`DataFrame.plot`	别名 `pyspark.pandas.plot.core.PandasOnSparkPlotAccessor`
`DataFrame.plot.area` ([x, y])	绘制堆积面积图。
`DataFrame.plot.barh` ([x, y])	制作一个水平条形图。
`DataFrame.plot.bar` ([x, y])	垂直条形图。
`DataFrame.plot.hist` ([bins])	绘制DataFrame列的一个直方图。
`DataFrame.plot.box` (**kwds)	绘制 Series 列的箱线图。
`DataFrame.plot.line` ([x, y])	将DataFrame/Series绘制为线条。
`DataFrame.plot.pie` (**kwds)	生成一个饼图。
`DataFrame.plot.scatter` (x, y, **kwds)	创建一个具有不同标记点大小和颜色的散点图。
`DataFrame.plot.density` ([bw_method, ind])	使用高斯核生成核密度估计图。
`DataFrame.hist` ([bins])	绘制DataFrame列的一个直方图。
`DataFrame.boxplot` (**kwds)	绘制 Series 列的箱线图。
`DataFrame.kde` ([bw_method, ind])	使用高斯核生成核密度估计图。

Pandas-on-Spark specific ¶

DataFrame.pandas_on_spark 提供了仅在 Spark 上的 pandas API 中存在的 pandas-on-Spark 特定功能。这些功能可以通过 DataFrame.pandas_on_spark.<函数/属性> 访问。

`DataFrame.pandas_on_spark.apply_batch` (func)	应用一个函数，该函数接受 pandas DataFrame 并输出 pandas DataFrame。
`DataFrame.pandas_on_spark.transform_batch` (…)	使用一个函数来转换块，该函数接收 pandas DataFrame 并输出 pandas DataFrame。

DataFrame ¶