DataFrame ¶
Attributes and underlying data ¶
|
DataFrame 的索引(行标签)列。 |
|
|
|
打印DataFrame的简明摘要。 |
|
DataFrame 的列标签。 |
|
|
如果当前DataFrame为空,则返回true。 |
|
返回DataFrame中的数据类型。 |
|
|
返回一个表示DataFrame维度的元组。 |
|
|
返回一个表示DataFrame轴的列表。 |
|
|
返回一个表示数组维数数量的整数。 |
|
|
返回一个表示此对象中元素数量的整数。 |
|
|
|
返回基于列数据类型的DataFrame列的子集。 |
|
返回DataFrame或Series的Numpy表示形式。 |
Conversion ¶
|
|
复制此对象的索引和数据。 |
|
检测当前数据框中项目的缺失值。 |
|
|
|
将 pandas-on-Spark 对象转换为指定的数据类型
|
|
检测当前数据框中项目的缺失值。 |
|
|
检测当前数据框中项目的非缺失值。 |
|
|
检测当前数据框中项目的非缺失值。 |
|
|
返回当前对象中单个元素的布尔值。 |
Indexing, iteration ¶
|
访问行/列标签对的一个单一值。 |
|
|
通过整数位置访问行/列对的单个值。 |
|
|
|
返回前 n 行。 |
|
|
返回沿指定轴的第一个最大值的索引。 |
|
|
返回沿指定轴的最小值的第一个出现的索引。 |
|
通过标签或布尔序列访问一组行和列。 |
|
|
纯基于整数位置的索引,用于按位置选择。 |
|
|
|
在指定位置向DataFrame插入列。 |
|
遍历(列名,Series)对。 |
|
|
这是
|
|
|
遍历 DataFrame 行作为 (索引, Series) 对。 |
|
|
|
遍历DataFrame行作为命名元组。 |
|
返回列的别名。 |
|
|
|
返回项目并从框架中删除。 |
|
|
返回最后 n 行。 |
|
|
返回DataFrame的横截面。 |
|
|
从对象中获取给定键的项(DataFrame列、Panel切片等)。 |
|
|
在条件为假时替换值。 |
|
|
在条件为真时替换值。 |
|
|
使用布尔表达式查询DataFrame的列。 |
Binary operator functions ¶
|
|
获取数据框与其他对象的逐元素加法(二元运算符 + )。 |
|
|
获取数据框与其他数据框的逐元素相加结果(二元运算符 + )。 |
|
|
获取数据框与其他对象的浮点数除法,逐元素进行(二元运算符 / )。 |
|
|
获取数据框和其他元素的浮点除法(二元运算符 / )。 |
|
|
获取数据框和其他对象的浮点数除法,逐元素进行(二元运算符 / )。 |
|
|
获取数据框和其他对象的浮点数除法,逐元素进行(二元运算符 / )。 |
|
|
获取数据框与其他对象的逐元素乘法(二元运算符 * )。 |
|
|
获取数据框与其他对象的逐元素乘法(二元运算符 * )。 |
|
|
获取数据框与其他对象的元素减法(二元运算符 - )。 |
|
|
获取数据框与其他对象的元素减法(二元运算符 - )。 |
|
|
获取数据框系列和其他元素的指数幂,逐元素操作(二元运算符 ** )。 |
|
|
获取数据框和其他对象的指数幂,逐元素操作(二元运算符 ** )。 |
|
|
获取数据框和其他对象的模数,逐元素进行(二元运算符 % )。 |
|
|
获取数据框和其他对象的模数,逐元素进行(二元运算符 % )。 |
|
|
获取数据框和其他对象的整数除法,逐元素进行(二元运算符 // )。 |
|
|
获取数据框和其他对象的整数除法,逐元素进行(二元运算符 // )。 |
|
|
比较当前值是否小于另一个值。 |
|
|
比较当前值是否大于另一个值。 |
|
|
比较当前值是否小于或等于另一个值。 |
|
|
比较当前值是否大于或等于另一个值。 |
|
|
比较当前值是否不等于另一个值。 |
|
|
比较当前值是否等于另一个值。 |
|
|
计算DataFrame与其他矩阵的乘法。 |
|
使用 other 中相同位置的值更新空元素。 |
Function application, GroupBy & Window ¶
|
|
沿DataFrame的轴应用函数。 |
|
|
对数据框的每个元素应用一个函数。 |
|
|
应用函数(self, *args, **kwargs)。 |
|
|
在指定轴上使用一个或多个操作进行聚合。 |
|
|
在指定轴上使用一个或多个操作进行聚合。 |
|
|
使用一个或多个列对DataFrame或Series进行分组。 |
|
|
提供滚动变换。 |
|
|
提供扩展转换。 |
|
|
在自身上调用
|
Computations / Descriptive Stats ¶
|
返回一个包含每个元素绝对数值的Series/DataFrame。 |
|
|
|
返回是否所有元素都为真。 |
|
|
返回是否有任何元素为真。 |
|
|
在输入阈值处修剪值。 |
|
|
计算列之间的成对相关性,排除NA/null值。 |
|
|
计算成对相关性。 |
|
|
计算每列的非NA单元格数量。 |
|
|
计算列之间的成对协方差,排除NA/null值。 |
|
|
生成描述性统计数据,总结数据集分布的集中趋势、离散度和形状,排除
|
|
|
提供指数加权窗口变换。 |
|
|
返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。 |
|
|
返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。 |
|
|
返回值的平均绝对偏差。 |
|
|
返回值的最大值。 |
|
|
返回值的平均值。 |
|
|
返回值的最小值。 |
|
|
返回请求轴上值的中位数。 |
|
|
获取沿所选轴的每个元素的众数。 |
|
|
当前元素与前一个元素之间的百分比变化。 |
|
|
返回值的乘积。 |
|
|
返回值的乘积。 |
|
|
返回给定分位数处的值。 |
|
|
沿轴计算数值数据的排名(1到n)。 |
|
|
返回对象中唯一元素的数量。 |
|
|
返回请求轴上的平均值的无偏标准误差。 |
|
|
返回通过N-1标准化的无偏斜度。 |
|
|
返回值的总和。 |
|
|
返回样本标准差。 |
|
|
返回无偏方差。 |
|
|
返回DataFrame或Series轴上的累积最小值。 |
|
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
|
返回 DataFrame 或 Series 轴上的累计和。 |
|
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
|
将DataFrame四舍五入到可变的小数位数。 |
|
|
元素的第一个离散差分。 |
|
|
评估一个描述对DataFrame列进行操作的字符串。 |
Reindexing / Selection / Label manipulation ¶
|
|
使用字符串 前缀 作为标签前缀。 |
|
|
后缀标签与字符串 后缀 。 |
|
|
使用指定的连接方法将两个对象在其轴上对齐。 |
|
|
选择特定时间点的值(例如:上午9:30)。 |
|
|
选择一天中特定时间段内的值(例如:上午9:00-9:30)。 |
|
|
从列中删除指定的标签。 |
|
|
返回移除请求的索引/列级别后的DataFrame。 |
|
|
返回删除重复行后的DataFrame,可选地仅考虑某些列。 |
|
|
返回布尔序列,表示重复的行,可以选择仅考虑某些列。 |
|
|
比较当前值是否等于另一个值。 |
|
|
根据指定索引中的标签对数据框的行或列进行子集化。 |
|
|
根据日期偏移量选择时间序列数据的前几个周期。 |
|
|
返回前 n 行。 |
|
|
根据日期偏移选择时间序列数据的最终周期。 |
|
|
使 DataFrame 符合新索引,并可选择填充逻辑,在前一个索引中没有值的位置放置 NA/NaN。 |
|
|
返回一个与另一个对象具有匹配索引的DataFrame。 |
|
|
更改坐标轴标签。 |
|
|
设置索引或列的轴名称。 |
|
|
重置索引,或重置其某一层级。 |
|
|
使用一个或多个现有列设置DataFrame索引(行标签)。 |
|
|
互换轴并适当交换值轴。 |
|
|
在特定轴上的MultiIndex中交换级别i和j。 |
|
|
返回沿轴的给定 位置 索引中的元素。 |
|
|
DataFrame中的每个元素是否包含在值中。 |
|
|
从对象的轴中返回一个随机样本项。 |
|
|
在某个索引值之前和之后截断一个Series或DataFrame。 |
Missing data handling ¶
|
|
同义词为
DataFrame.fillna()
或
Series.fillna()
使用
|
|
|
移除缺失值。 |
|
|
填充NA/NaN值。 |
|
|
返回一个新的DataFrame,用另一个值替换某个值。 |
|
|
同义于
DataFrame.fillna()
或
Series.fillna()
使用
|
|
|
同义词为
DataFrame.fillna()
或
Series.fillna()
使用
|
|
|
使用插值方法填充NaN值。 |
|
|
同义词为
DataFrame.fillna()
或
Series.fillna()
使用
|
Reshaping, sorting, transposing ¶
|
|
创建一个电子表格样式的数据透视表作为DataFrame。 |
|
|
返回按给定索引/列值组织的重塑后的DataFrame。 |
|
|
按标签排序对象(沿轴) |
|
|
按任意轴的值排序。 |
|
|
返回按 列 降序排列的前 n 行。 |
|
|
返回按 列 升序排列的前 n 行。 |
|
将指定级别从列堆叠到索引。 |
|
|
透视(必然是分层的)索引标签。 |
|
|
|
将DataFrame从宽格式透视为长格式,可以选择保留标识变量集。 |
|
|
将类似列表的每个元素转换为一行,并复制索引值。 |
|
|
将一维轴对象压缩为标量。 |
|
转置索引和列。 |
|
|
转置索引和列。 |
Combining / joining / merging ¶
|
|
将其他对象的行追加到调用者的末尾,返回一个新对象。 |
|
|
将新列分配给DataFrame。 |
|
|
合并具有数据库样式连接的DataFrame对象。 |
|
|
连接另一个DataFrame的列。 |
|
|
使用另一个DataFrame中的非NA值就地修改。 |
Serialization / IO / Conversion ¶
|
|
从数组类或字典的字典构造DataFrame。 |
|
|
将结构化或记录的ndarray转换为DataFrame。 |
|
|
将DataFrame写入Spark表。 |
|
|
将DataFrame写入为Delta Lake表。 |
|
|
将DataFrame写入Parquet文件或目录。 |
|
|
将DataFrame写入Spark数据源。 |
|
|
将对象写入逗号分隔值(csv)文件。 |
|
|
将 DataFrame 写入 ORC 格式。 |
|
返回一个 pandas DataFrame。 |
|
|
|
将DataFrame渲染为HTML表格。 |
|
表示此 DataFrame 或 Series 中的值的 NumPy ndarray。 |
|
|
|
与Spark相关的功能。 |
|
|
将DataFrame渲染为控制台友好的表格输出。 |
|
|
将对象转换为JSON字符串。 |
|
|
将DataFrame转换为字典。 |
|
|
将对象写入 Excel 工作表。 |
|
|
将对象复制到系统剪贴板。 |
|
|
以Markdown友好格式打印Series或DataFrame。 |
|
|
将DataFrame转换为NumPy记录数组。 |
|
|
将对象渲染为 LaTeX 表格环境表。 |
|
属性返回一个包含用于构建DataFrame的样式化HTML表示的方法的Styler对象。 |
Plotting ¶
DataFrame.plot
既是一个可调用的方法,也是一个命名空间属性,用于特定形式的绘图方法,如
DataFrame.plot.
。
|
别名
|
|
|
|
绘制堆积面积图。 |
|
|
制作一个水平条形图。 |
|
|
垂直条形图。 |
|
|
绘制DataFrame列的一个直方图。 |
|
|
绘制 Series 列的箱线图。 |
|
|
将DataFrame/Series绘制为线条。 |
|
|
生成一个饼图。 |
|
|
创建一个具有不同标记点大小和颜色的散点图。 |
|
|
使用高斯核生成核密度估计图。 |
|
|
绘制DataFrame列的一个直方图。 |
|
|
绘制 Series 列的箱线图。 |
|
|
使用高斯核生成核密度估计图。 |
Pandas-on-Spark specific ¶
DataFrame.pandas_on_spark
提供了仅在 Spark 上的 pandas API 中存在的 pandas-on-Spark 特定功能。
这些功能可以通过
DataFrame.pandas_on_spark.<函数/属性>
访问。
|
应用一个函数,该函数接受 pandas DataFrame 并输出 pandas DataFrame。 |
|
|
使用一个函数来转换块,该函数接收 pandas DataFrame 并输出 pandas DataFrame。 |