Series

Constructor

Series ([数据, 索引, 数据类型, 名称, 复制, …])

pandas-on-Spark 系列,逻辑上对应于 pandas 系列。

Attributes

Series.index

Series 的索引(轴标签)列。

Series.dtype

返回底层数据的dtype对象。

Series.dtypes

返回底层数据的dtype对象。

Series.ndim

返回一个表示数组维数目的整数。

Series.name

返回 Series 的名称。

Series.shape

返回底层数据形状的元组。

Series.axes

返回行轴标签的列表。

Series.size

返回一个表示此对象中元素数量的整数。

Series.empty

如果当前对象为空,则返回 true。

Series.T

返回转置,即自身。

Series.hasnans

如果存在任何缺失值,则返回True。

Series.values

返回DataFrame或Series的Numpy表示形式。

Conversion

Series.astype (dtype)

将 pandas-on-Spark 对象转换为指定的数据类型 dtype

Series.copy ([deep])

复制此对象的索引和数据。

Series.bool ()

返回当前对象中单个元素的布尔值。

Indexing, iteration

Series.at

访问行/列标签对的一个单一值。

Series.iat

通过整数位置访问行/列对的单个值。

Series.loc

通过标签或布尔序列访问一组行和列。

Series.iloc

纯基于整数位置的索引,用于按位置选择。

Series.keys ()

返回索引的别名。

Series.pop (项目)

返回项目并从系列中删除。

Series.items ()

惰性地迭代(索引,值)元组。

Series.iteritems ()

这是 items 的别名。

Series.item ()

返回底层数据的第一个元素作为Python标量。

Series.xs (键[, 级别])

返回序列的横截面。

Series.get (键[, 默认值])

从对象中获取给定键的项(DataFrame 列、Panel 切片等)。

Binary operator functions

Series.add (其他[, 填充值])

返回序列和其他元素的加法运算结果,逐元素进行(二元运算符 + )。

Series.div (其他)

返回序列和其他的浮点数除法,逐元素进行(二元运算符 / )。

Series.mul (其他)

返回序列和其他元素的乘积,逐元素进行(二元运算符 * )。

Series.radd (其他[, 填充值])

返回序列和其他的反向加法,逐元素进行(二元运算符 + )。

Series.rdiv (其他)

返回序列和其他的反向浮点除法,逐元素进行(二元运算符 / )。

Series.rmul (其他)

返回序列和其他的反向乘法,逐元素进行(二元运算符 * )。

Series.rsub (其他)

返回序列和其他的反向减法,逐元素进行(二元运算符 - )。

Series.rtruediv (其他)

返回序列和其他的反向浮点除法,逐元素进行(二元运算符 / )。

Series.sub (其他)

返回序列和其他的元素减法结果,逐元素进行(二元运算符 - )。

Series.truediv (其他)

返回序列和其他的浮点数除法,逐元素进行(二元运算符 / )。

Series.pow (其他)

返回序列与序列及其他元素的指数幂(二元运算符 ** )。

Series.rpow (其他)

返回序列和其他的反指数幂,逐元素操作(二元运算符 ** )。

Series.mod (其他)

返回序列和其他的模,逐元素进行(二元运算符 % )。

Series.rmod (其他)

返回序列和其他的反向模数,逐元素进行(二元运算符 % )。

Series.floordiv (其他)

返回序列和其他的整数除法,逐元素进行(二元运算符 // )。

Series.rfloordiv (其他)

返回序列和其他的反向整数除法,逐元素进行(二元运算符 // )。

Series.divmod (其他)

返回序列和另一个序列的整数除法和模数,逐元素进行(二元运算符 divmod )。

Series.rdivmod (其他)

返回序列和另一个序列的整数除法和模,逐元素操作(二元运算符 rdivmod )。

Series.combine_first (其他)

合并 Series 的值,优先选择调用 Series 的值。

Series.lt (其他)

比较当前值是否小于另一个值。

Series.gt (其他)

比较当前值是否大于另一个值。

Series.le (其他)

比较当前值是否小于或等于另一个值。

Series.ge (其他)

比较当前值是否大于或等于另一个值。

Series.ne (其他)

比较当前值是否不等于另一个值。

Series.eq (其他)

比较当前值是否等于另一个值。

Series.product ([axis, skipna, numeric_only, …])

返回值的乘积。

Series.dot (其他)

计算Series与other列之间的点积。

Function application, GroupBy & Window

Series.apply (func[, args])

在Series的值上调用函数。

Series.agg (func)

在指定轴上使用一个或多个操作进行聚合。

Series.aggregate (func)

在指定轴上使用一个或多个操作进行聚合。

Series.transform (func[, axis])

调用 func 生成与 self 相同类型的值,并且具有与输入相同的轴长度。

Series.map (arg[, na_action])

根据输入对应关系映射Series的值。

Series.groupby (by[, axis, as_index, dropna])

使用一个或多个列对DataFrame或Series进行分组。

Series.rolling (窗口[, 最小周期])

提供滚动变换。

Series.expanding ([min_periods])

提供扩展转换。

Series.pipe (func, *args, **kwargs)

应用 func(self, *args, **kwargs)。

Computations / Descriptive Stats

Series.abs ()

返回一个包含每个元素绝对数值的Series/DataFrame。

Series.all ([axis, skipna])

返回是否所有元素都为真。

Series.any ([axis])

返回是否有任何元素为真。

Series.autocorr ([滞后])

计算滞后N的自相关。

Series.between (左, 右[, 包含])

返回布尔序列,等价于 left <= series <= right。

Series.clip ([下限, 上限, 原地])

在输入阈值处修剪值。

Series.corr (其他[, 方法, 最小周期])

计算与 其他 序列的相关性,排除缺失值。

Series.count ([axis, numeric_only])

计算每列中非NA单元格的数量。

Series.cov (其他[, min_periods, ddof])

计算与 Series 的协方差,排除缺失值。

Series.cummax ([skipna])

返回 DataFrame 或 Series 轴上的累积最大值。

Series.cummin ([skipna])

返回DataFrame或Series轴上的累积最小值。

Series.cumsum ([skipna])

返回 DataFrame 或 Series 轴上的累计和。

Series.cumprod ([skipna])

返回 DataFrame 或 Series 轴上的累积乘积。

Series.describe ([percentiles])

生成描述性统计数据,总结数据集分布的集中趋势、离散度和形状,排除 NaN 值。

Series.ewm ([com, span, halflife, alpha, …])

提供指数加权窗口变换。

Series.filter ([items, like, regex, axis])

根据指定索引中的标签对数据框的行或列进行子集化。

Series.kurt ([axis, skipna, numeric_only])

返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。

Series.mad ()

返回值的平均绝对偏差。

Series.max ([axis, skipna, numeric_only])

返回值的最大值。

Series.mean ([axis, skipna, numeric_only])

返回值的平均值。

Series.min ([axis, skipna, numeric_only])

返回值的最小值。

Series.mode ([dropna])

返回数据集的众数。

Series.nlargest ([n])

返回最大的 n 个元素。

Series.nsmallest ([n])

返回最小的 n 个元素。

Series.pct_change ([periods])

当前元素与前一个元素之间的百分比变化。

Series.prod ([axis, skipna, numeric_only, …])

返回值的乘积。

Series.nunique ([dropna, approx, rsd])

返回对象中唯一元素的数量。

Series.is_unique

返回对象中的值是否唯一的布尔值

Series.quantile ([q, accuracy])

返回给定分位数处的值。

Series.rank ([method, ascending, numeric_only])

沿轴计算数值数据的排名(1到n)。

Series.sem ([axis, skipna, ddof, numeric_only])

返回请求轴上的平均值的无偏标准误差。

Series.skew ([axis, skipna, numeric_only])

返回通过N-1标准化的无偏斜度。

Series.std ([axis, skipna, ddof, numeric_only])

返回样本标准差。

Series.sum ([axis, skipna, numeric_only, …])

返回值的总和。

Series.median ([axis, skipna, numeric_only, …])

返回请求轴上值的中位数。

Series.var ([axis, ddof, numeric_only])

返回无偏方差。

Series.kurtosis ([axis, skipna, numeric_only])

返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。

Series.unique ()

返回Series对象的唯一值。

Series.value_counts ([normalize, sort, …])

返回一个包含唯一值计数的序列。

Series.round ([小数位数])

将序列中的每个值四舍五入到给定的位数。

Series.diff ([periods])

元素的第一个离散差分。

Series.is_monotonic

返回布尔值,判断对象中的值是否单调递增。

Series.is_monotonic_increasing

返回布尔值,判断对象中的值是否单调递增。

Series.is_monotonic_decreasing

返回布尔值,判断对象中的值是否单调递减。

Reindexing / Selection / Label manipulation

Series.align (other[, join, axis, copy])

使用指定的连接方法将两个对象在其轴上对齐。

Series.drop ([labels, index, columns, level, …])

返回移除了指定索引标签的序列。

Series.droplevel (level)

返回移除请求的索引级别后的序列。

Series.drop_duplicates ([keep, inplace])

返回已删除重复值的序列。

Series.duplicated ([保留])

指示重复的Series值。

Series.equals (其他)

比较当前值是否等于另一个值。

Series.add_prefix (前缀)

使用字符串 前缀 作为标签前缀。

Series.add_suffix (后缀)

后缀标签带有字符串后缀。

Series.first (偏移量)

根据日期偏移选择时间序列数据的前几个周期。

Series.head ([n])

返回前n行。

Series.idxmax ([skipna])

返回最大值的行标签。

Series.idxmin ([skipna])

返回最小值的行标签。

Series.isin (值)

检查 是否包含在Series或Index中。

Series.last (偏移量)

根据日期偏移选择时间序列数据的最终周期。

Series.rename ([index])

修改序列索引标签或名称。

Series.rename_axis ([mapper, index, inplace])

设置索引或列的轴名称。

Series.reindex ([index, fill_value])

将系列数据对齐到新的索引,并可选择填充逻辑,将NA/NaN放置在没有先前索引值的位置。

Series.reindex_like (其他)

返回一个与另一个对象具有匹配索引的序列。

Series.reset_index ([level, drop, name, inplace])

生成一个新的DataFrame或Series,并重置索引。

Series.sample ([n, frac, replace, …])

从对象的轴中返回一个随机样本项。

Series.searchsorted (值[, 边])

查找元素应插入以保持顺序的索引。

Series.swaplevel ([i, j, copy])

在 MultiIndex 中交换层级 i 和 j。

Series.swapaxes (i, j[, copy])

互换轴并适当交换值轴。

Series.take (索引)

返回沿轴的给定 位置 索引中的元素。

Series.tail ([n])

返回最后 n 行。

Series.where (cond[, other])

在条件为假时替换值。

Series.mask (条件[, 其他])

在条件为真时替换值。

Series.truncate ([before, after, axis, copy])

在某个索引值之前和之后截断一个Series或DataFrame。

Missing data handling

Series.backfill ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 并带有 method=`bfill`

Series.bfill ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 使用 method=`bfill`

Series.isna ()

检测现有的(非缺失的)值。

Series.isnull ()

检测现有的(非缺失的)值。

Series.notna ()

检测现有的(非缺失的)值。

Series.notnull ()

检测现有的(非缺失的)值。

Series.pad ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 使用 method=`ffill`

Series.dropna ([axis, inplace])

返回一个删除了缺失值的新序列。

Series.fillna ([value, method, axis, …])

填充NA/NaN值。

Series.interpolate ([方法, 限制, …])

使用插值方法填充NaN值。

Reshaping, sorting, transposing

Series.argsort ()

返回用于对Series值进行排序的整数索引。

Series.argmin ([axis, skipna])

返回Series中最小值的整数位置。

Series.argmax ([axis, skipna])

返回Series中最大值的整数位置。

Series.sort_index ([轴, 级别, 升序, …])

按标签排序对象(沿轴)

Series.sort_values ([升序, 原地, …])

按值排序。

Series.unstack ([level])

解堆叠,又名

Series.explode ()

将类似列表的每个元素转换为一行。

Series.repeat (重复次数)

重复一个Series中的元素。

Series.squeeze ([axis])

将一维轴对象压缩为标量。

Series.factorize ([sort, na_sentinel])

将对象编码为枚举类型或分类变量。

Combining / joining / merging

Series.append (to_append[, ignore_index, …])

连接两个或多个序列。

Series.compare (other[, keep_shape, keep_equal])

与另一个序列进行比较并显示差异。

Series.replace ([to_replace, value, regex])

将to_replace中给定的值替换为value。

Series.update (其他)

使用传递的Series中的非NA值就地修改Series。

Accessors

Pandas API on Spark 在各种访问器下提供了特定数据类型的方法。 这些是 Series 中的独立命名空间,仅适用于特定数据类型。

数据类型

访问器

日期时间

日期时间

字符串

字符串

分类

分类

Date Time Handling

Series.dt 可以用于访问序列的值作为日期时间类型,并返回多个属性。 这些属性可以通过 Series.dt. 访问。

Datetime Properties

Series.dt.date

返回一个包含 Python datetime.date 对象的 Series(即不带时区信息的 Timestamp 的日期部分)。

Series.dt.year

日期时间中的年份。

Series.dt.month

时间戳的月份,1月 = 1,12月 = 12。

Series.dt.day

日期时间中的天数。

Series.dt.hour

日期时间的小时部分。

Series.dt.minute

日期时间的分钟部分。

Series.dt.second

日期时间的秒数。

Series.dt.microsecond

日期时间中的微秒。

Series.dt.week

一年中的周序数。

Series.dt.weekofyear

一年中的周序数。

Series.dt.dayofweek

星期几,星期一=0,星期日=6。

Series.dt.weekday

星期几,星期一=0,星期日=6。

Series.dt.dayofyear

一年中的第几天。

Series.dt.quarter

日期的季度。

Series.dt.is_month_start

指示日期是否为月份的第一天。

Series.dt.is_month_end

指示日期是否为该月的最后一天。

Series.dt.is_quarter_start

指示日期是否为季度第一天的指标。

Series.dt.is_quarter_end

指示日期是否为季度最后一天的指标。

Series.dt.is_year_start

指示日期是否为某年的第一天。

Series.dt.is_year_end

指示日期是否为一年的最后一天。

Series.dt.is_leap_year

布尔指示符,表示日期是否属于闰年。

Series.dt.daysinmonth

该月份的天数。

Series.dt.days_in_month

该月份的天数。

Datetime Methods

Series.dt.normalize ()

将时间转换为午夜。

Series.dt.strftime (日期格式)

使用指定的 date_format 转换为字符串序列。

Series.dt.round (freq, *args, **kwargs)

对数据执行四舍五入操作到指定的频率。

Series.dt.floor (freq, *args, **kwargs)

对数据执行向下取整操作到指定的频率。

Series.dt.ceil (freq, *args, **kwargs)

对数据执行ceil操作到指定的freq。

Series.dt.month_name ([locale])

返回具有指定区域设置的序列的月份名称。

Series.dt.day_name ([locale])

返回具有指定区域设置的序列的日期名称。

String Handling

Series.str 可以用来将序列的值作为字符串访问,并对其应用多种方法。这些方法可以通过 Series.str.<函数/属性> 的方式访问。

Series.str.capitalize ()

将系列中的字符串转换为大写。

Series.str.cat ([others, sep, na_rep, join])

不支持。

Series.str.center (宽度[, 填充字符])

在Series/Index中的字符串的左右两侧填充额外的字符。

Series.str.contains (pat[, case, flags, na, …])

测试模式或正则表达式是否包含在序列的字符串中。

Series.str.count (pat[, flags])

计算模式在序列中每个字符串中的出现次数。

Series.str.decode (编码[, 错误])

不支持。

Series.str.encode (编码[, 错误])

不支持。

Series.str.endswith (模式[, na])

测试每个字符串元素的末尾是否匹配某个模式。

Series.str.extract (pat[, flags, expand])

不支持。

Series.str.extractall (pat[, flags])

不支持。

Series.str.find (sub[, start, end])

返回系列中每个字符串中子字符串完全包含在 [start:end] 之间的最低索引。

Series.str.findall (pat[, flags])

查找序列中所有匹配模式或正则表达式的出现。

Series.str.get (i)

从序列中的每个字符串或字符串列表/元组中提取指定位置的元素。

Series.str.get_dummies ([sep])

不支持。

Series.str.index (sub[, start, end])

返回每个字符串中子字符串完全包含在 [start:end] 之间的最低索引。

Series.str.isalnum ()

检查每个字符串中的所有字符是否都是字母数字。

Series.str.isalpha ()

检查每个字符串中的所有字符是否均为字母。

Series.str.isdigit ()

检查每个字符串中的所有字符是否都是数字。

Series.str.isspace ()

检查每个字符串中的所有字符是否都是空白字符。

Series.str.islower ()

检查每个字符串中的所有字符是否都是小写的。

Series.str.isupper ()

检查每个字符串中的所有字符是否均为大写。

Series.str.istitle ()

检查每个字符串中的所有字符是否为标题大小写。

Series.str.isnumeric ()

检查每个字符串中的所有字符是否都是数字。

Series.str.isdecimal ()

检查每个字符串中的所有字符是否都是十进制数。

Series.str.join (分隔符)

将作为Series元素包含的列表与传递的分隔符连接起来。

Series.str.len ()

计算序列中每个元素的长度。

Series.str.ljust (宽度[, 填充字符])

在Series中的字符串右侧填充额外的字符。

Series.str.lower ()

将 Series/Index 中的字符串转换为全部小写。

Series.str.lstrip ([to_strip])

移除前导字符。

Series.str.match (pat[, case, flags, na])

确定每个字符串是否匹配正则表达式。

Series.str.normalize (form)

返回 Series 中字符串的 Unicode 规范化形式。

Series.str.pad (宽度[, 边, 填充字符])

在 Series 中填充字符串至指定宽度。

Series.str.partition ([sep, expand])

不支持。

Series.str.repeat (重复次数)

在 Series 中重复每个字符串。

Series.str.replace (pat, repl[, n, case, …])

在Series中用其他字符串替换模式/正则表达式的匹配项。

Series.str.rfind (sub[, start, end])

返回Series中每个字符串中子字符串完全包含在[start:end]之间的最高索引。

Series.str.rindex (sub[, start, end])

返回每个字符串中子字符串完全包含在 [start:end] 之间的最高索引。

Series.str.rjust (宽度[, 填充字符])

在Series中的字符串左侧填充额外的字符。

Series.str.rpartition ([sep, expand])

不支持。

Series.str.rsplit ([pat, n, expand])

根据给定的分隔符/定界符拆分字符串。

Series.str.rstrip ([to_strip])

移除尾随字符。

Series.str.slice ([start, stop, step])

从序列中的每个元素中切片子字符串。

Series.str.slice_replace ([start, stop, repl])

从序列的每个元素中切片子字符串。

Series.str.split ([pat, n, expand])

根据给定的分隔符/定界符拆分字符串。

Series.str.startswith (模式[, na])

测试每个字符串元素的开头是否匹配一个模式。

Series.str.strip ([to_strip])

移除前导和尾随字符。

Series.str.swapcase ()

将 Series/Index 中的字符串转换为交换大小写。

Series.str.title ()

将系列中的字符串转换为首字母大写。

Series.str.translate (table)

通过给定的映射表映射字符串中的所有字符。

Series.str.upper ()

将 Series/Index 中的字符串转换为全部大写。

Series.str.wrap (宽度, **参数)

在系列中包装长字符串,以在段落中格式化,段落长度小于给定的宽度。

Series.str.zfill (宽度)

在 Series 中通过在字符串前添加 '0' 字符来填充字符串。

Categorical accessor

分类数据类型特定的方法和属性可以通过 Series.cat 访问器访问。

Series.cat.categories

这个分类的类别。

Series.cat.ordered

类别是否具有有序关系。

Series.cat.codes

返回代码序列以及索引。

Series.cat.rename_categories (新类别)

重命名类别。

Series.cat.reorder_categories (新类别)

按照 new_categories 中指定的方式重新排序类别。

Series.cat.add_categories (新类别)

添加新类别。

Series.cat.remove_categories (移除项)

移除指定的分类。

Series.cat.remove_unused_categories ()

移除未使用的分类。

Series.cat.set_categories (新类别[, …])

将类别设置为指定的新类别。

Series.cat.as_ordered ([inplace])

设置分类变量为有序。

Series.cat.as_unordered ([inplace])

将分类设置为无序。

Plotting

Series.plot 既是一个可调用的方法,也是一个命名空间属性,用于特定形式的绘图方法,如 Series.plot.

Series.plot

别名 pyspark.pandas.plot.core.PandasOnSparkPlotAccessor

Series.plot.area ([x, y])

绘制堆积面积图。

Series.plot.bar ([x, y])

垂直条形图。

Series.plot.barh ([x, y])

制作一个水平条形图。

Series.plot.box (**kwds)

绘制 Series 列的箱线图。

Series.plot.density ([bw_method, ind])

使用高斯核生成核密度估计图。

Series.plot.hist ([bins])

绘制DataFrame列的一个直方图。

Series.plot.line ([x, y])

将DataFrame/Series绘制为线条。

Series.plot.pie (**kwds)

生成一个饼图。

Series.plot.kde ([bw_method, ind])

使用高斯核生成核密度估计图。

Series.hist ([bins])

绘制DataFrame列的一个直方图。

Serialization / IO / Conversion

Series.to_pandas ()

返回一个 pandas Series。

Series.to_numpy ()

表示此 DataFrame 或 Series 中的值的 NumPy ndarray。

Series.to_list ()

返回一个值的列表。

Series.to_string ([buf, na_rep, …])

渲染 Series 的字符串表示形式。

Series.to_dict ([into])

将 Series 转换为 {标签 -> 值} 字典或类似字典的对象。

Series.to_clipboard ([excel, sep])

将对象复制到系统剪贴板。

Series.to_latex ([buf, columns, col_space, …])

将对象渲染为 LaTeX 表格环境表。

Series.to_markdown ([buf, mode])

以Markdown友好格式打印Series或DataFrame。

Series.to_json ([路径, 压缩, …])

将对象转换为JSON字符串。

Series.to_csv ([路径, 分隔符, 空值表示, 列, …])

将对象写入逗号分隔值(csv)文件。

Series.to_excel (excel_writer[, sheet_name, …])

将对象写入 Excel 工作表。

Series.to_frame ([name])

将 Series 转换为 DataFrame。

Pandas-on-Spark specific

Series.pandas_on_spark 提供了 pandas-on-Spark 特有的功能,这些功能仅存在于 Spark 上的 pandas API 中。 可以通过 Series.pandas_on_spark.<函数/属性> 访问这些功能。

Series.pandas_on_spark.transform_batch (函数, …)

使用一个函数来转换数据,该函数接受 pandas Series 并输出 pandas Series。