pyspark.pandas.Series ¶

class pyspark.pandas. Series ( data = None , index = None , dtype = None , name = None , copy = False , fastpath = False ) [source] ¶

pandas-on-Spark 系列，逻辑上对应于 pandas 系列。它在内部保存 Spark 列。

Variables

_internal – 用于管理元数据的内部不可变框架。
_psdf – 父级的pandas-on-Spark DataFrame

Parameters

data array-like, dict, or scalar value, pandas Series: 包含存储在Series中的数据请注意，如果 data 是pandas Series，则不应使用其他参数。
index array-like or Index (1d): 值必须是可哈希的，并且与数据的长度相同。允许非唯一索引值。如果没有提供，将默认为 RangeIndex（0, 1, 2, …, n）。如果同时使用了字典和索引序列，索引将覆盖字典中找到的键。
dtype numpy.dtype or None: 如果为 None，dtype 将被推断
copy boolean, default False: 复制输入数据

方法

`abs` ()	返回一个包含每个元素绝对数值的Series/DataFrame。
`add` (其他[, 填充值])	返回序列和其他元素的加法运算结果，逐元素进行（二元运算符 + ）。
`add_prefix` (前缀)	使用字符串前缀作为标签前缀。
`add_suffix` (后缀)	后缀标签带有字符串后缀。
`agg` (函数)	在指定轴上使用一个或多个操作进行聚合。
`aggregate` (func)	在指定轴上使用一个或多个操作进行聚合。
`align` (其他[, 连接, 轴, 复制])	使用指定的连接方法将两个对象在其轴上对齐。
`all` ([axis, skipna])	返回是否所有元素都为真。
`any` ([axis])	返回是否有任何元素为真。
`append` (to_append[, ignore_index, …])	连接两个或多个序列。
`apply` (函数[, 参数])	在Series的值上调用函数。
`argmax` ([axis, skipna])	返回Series中最大值的整数位置。
`argmin` ([axis, skipna])	返回Series中最小值的整数位置。
`argsort` ()	返回用于对Series值进行排序的整数索引。
`asof` (where)	返回在 where 之前没有任何NaN的最后一行。
`astype` (dtype)	将 pandas-on-Spark 对象转换为指定的数据类型 `dtype` 。
`at_time` (时间[, asof, 轴])	选择特定时间点的值（例如：上午9:30）。
`autocorr` ([滞后])	计算滞后N的自相关。
`backfill` ([axis, inplace, limit])	同义词为 DataFrame.fillna() 或 Series.fillna() 并带有 method=`bfill` 。
`between` (左, 右[, 包含])	返回布尔序列，等价于 left <= series <= right。
`between_time` (开始时间, 结束时间[, …])	选择一天中特定时间段内的值（例如：上午9:00-9:30）。
`bfill` ([axis, inplace, limit])	同义词为 DataFrame.fillna() 或 Series.fillna() 并带有 method=`bfill` 。
`bool` ()	返回当前对象中单个元素的布尔值。
`clip` ([下限, 上限, 原地])	在输入阈值处修剪值。
`combine_first` (其他)	合并 Series 的值，优先选择调用 Series 的值。
`compare` (other[, keep_shape, keep_equal])	与另一个序列进行比较并显示差异。
`copy` ([deep])	复制此对象的索引和数据。
`corr` (其他[, 方法, 最小周期])	计算与其他序列的相关性，排除缺失值。
`count` ([axis, numeric_only])	计算每列的非NA单元格数量。
`cov` (其他[, min_periods, ddof])	计算与 Series 的协方差，排除缺失值。
`cummax` ([skipna])	返回 DataFrame 或 Series 轴上的累积最大值。
`cummin` ([skipna])	返回DataFrame或Series轴上的累积最小值。
`cumprod` ([skipna])	返回 DataFrame 或 Series 轴上的累积乘积。
`cumsum` ([skipna])	返回 DataFrame 或 Series 轴上的累计和。
`describe` ([percentiles])	生成描述性统计数据，总结数据集分布的集中趋势、离散度和形状，排除 `NaN` 值。
`diff` ([periods])	元素的第一个离散差分。
`div` (其他)	返回序列和其他的浮点数除法，逐元素进行（二元运算符 / ）。
`divide` (其他)	返回序列和其他的浮点数除法，逐元素进行（二元运算符 / ）。
`divmod` (其他)	返回序列和另一个序列的整数除法和模数，逐元素进行（二元运算符 divmod ）。
`dot` (其他)	计算Series与other列之间的点积。
`drop` ([labels, index, columns, level, inplace])	返回移除了指定索引标签的序列。
`drop_duplicates` ([keep, inplace])	返回已删除重复值的序列。
`droplevel` (级别)	返回移除请求的索引级别后的序列。
`dropna` ([axis, inplace])	返回一个删除了缺失值的新序列。
`duplicated` ([保留])	指示重复的Series值。
`eq` (其他)	比较当前值是否等于另一个值。
`equals` (其他)	比较当前值是否等于另一个值。
`ewm` ([com, span, halflife, alpha, …])	提供指数加权窗口变换。
`expanding` ([min_periods])	提供扩展转换。
`explode` ()	将类似列表的每个元素转换为一行。
`factorize` ([sort, na_sentinel])	将对象编码为枚举类型或分类变量。
`ffill` ([axis, inplace, limit])	同义词为 DataFrame.fillna() 或 Series.fillna() 使用 method=`ffill` 。
`fillna` ([value, method, axis, inplace, limit])	填充NA/NaN值。
`filter` ([items, like, regex, axis])	根据指定索引中的标签对数据框的行或列进行子集化。
`first` (偏移量)	根据日期偏移选择时间序列数据的前几个周期。
`first_valid_index` ()	检索第一个有效值的索引。
`floordiv` (其他)	返回序列和其他的整数除法，逐元素进行（二元运算符 // ）。
`ge` (其他)	比较当前值是否大于或等于另一个值。
`get` (键[, 默认值])	从对象中获取给定键的项（DataFrame列、Panel切片等）。
`get_dtype_counts` ()	返回此对象中唯一数据类型的计数。
`groupby` (by[, axis, as_index, dropna])	使用一个或多个列对DataFrame或Series进行分组。
`gt` (其他)	比较当前值是否大于另一个值。
`head` ([n])	返回前n行。
`hist` ([bins])	绘制DataFrame列的一个直方图。
`idxmax` ([skipna])	返回最大值的行标签。
`idxmin` ([skipna])	返回最小值的行标签。
`interpolate` ([方法, 限制, …])	使用插值方法填充NaN值。
`isin` (值)	检查值是否包含在Series或Index中。
`isna` ()	检测现有的（非缺失的）值。
`isnull` ()	检测现有的（非缺失的）值。
`item` ()	返回底层数据的第一个元素作为Python标量。
`items` ()	惰性地迭代（索引，值）元组。
`iteritems` ()	这是 `items` 的别名。
`keys` ()	返回索引的别名。
`kurt` ([axis, skipna, numeric_only])	返回使用Fisher定义的无偏峰度（正态分布的峰度 == 0.0）。
`kurtosis` ([axis, skipna, numeric_only])	返回使用Fisher定义的无偏峰度（正态分布的峰度 == 0.0）。
`last` (偏移量)	根据日期偏移选择时间序列数据的最终周期。
`last_valid_index` ()	返回最后一个非NA/null值的索引。
`le` (其他)	比较当前值是否小于或等于另一个值。
`lt` (其他)	比较当前值是否小于另一个值。
`mad` ()	返回值的平均绝对偏差。
`map` (arg[, na_action])	根据输入对应关系映射Series的值。
`mask` (条件[, 其他])	在条件为真时替换值。
`max` ([axis, skipna, numeric_only])	返回值的最大值。
`mean` ([axis, skipna, numeric_only])	返回值的平均值。
`median` ([axis, skipna, numeric_only, accuracy])	返回请求轴上值的中位数。
`min` ([axis, skipna, numeric_only])	返回值的最小值。
`mod` (其他)	返回序列和其他的模，逐元素进行（二元运算符 % ）。
`mode` ([dropna])	返回数据集的众数。
`mul` (其他)	返回序列和其他元素的乘积，逐元素进行（二元运算符 * ）。
`multiply` (其他)	返回序列和其他元素的乘积，逐元素进行（二元运算符 * ）。
`ne` (其他)	比较当前值是否不等于另一个值。
`nlargest` ([n])	返回最大的 n 个元素。
`notna` ()	检测现有的（非缺失的）值。
`notnull` ()	检测现有的（非缺失的）值。
`nsmallest` ([n])	返回最小的 n 个元素。
`nunique` ([dropna, approx, rsd])	返回对象中唯一元素的数量。
`pad` ([axis, inplace, limit])	同义词为 DataFrame.fillna() 或 Series.fillna() 使用 method=`ffill` 。
`pct_change` ([periods])	当前元素与前一个元素之间的百分比变化。
`pipe` (函数, 参数, *关键字参数)	应用函数(self, args, *kwargs)。
`pop` (项)	返回项目并从系列中删除。
`pow` (其他)	返回序列与序列及其他元素的指数幂（二元运算符 ** ）。
`prod` ([axis, skipna, numeric_only, min_count])	返回值的乘积。
`product` ([axis, skipna, numeric_only, min_count])	返回值的乘积。
`quantile` ([q, accuracy])	返回给定分位数处的值。
`radd` (其他[, 填充值])	返回序列和其他的反向加法，逐元素进行（二元运算符 + ）。
`rank` ([method, ascending, numeric_only])	沿轴计算数值数据的排名（1到n）。
`rdiv` (其他)	返回序列和其他的反向浮点除法，逐元素进行（二元运算符 / ）。
`rdivmod` (其他)	返回序列和另一个序列的整数除法和模，逐元素操作（二元运算符 rdivmod ）。
`reindex` ([index, fill_value])	将系列数据对齐到新的索引，并可选择填充逻辑，将NA/NaN放置在没有先前索引值的位置。
`reindex_like` (其他)	返回一个与另一个对象具有匹配索引的序列。
`rename` ([index])	修改序列索引标签或名称。
`rename_axis` ([mapper, index, inplace])	设置索引或列的轴名称。
`repeat` (重复次数)	重复一个Series中的元素。
`replace` ([to_replace, value, regex])	将to_replace中给定的值替换为value。
`resample` (规则[, 关闭, 标签, 在])	重采样时间序列数据。
`reset_index` ([level, drop, name, inplace])	生成一个新的DataFrame或Series，并重置索引。
`rfloordiv` (其他)	返回序列和其他的反向整数除法，逐元素进行（二元运算符 // ）。
`rmod` (其他)	返回序列和其他的反向模数，逐元素进行（二元运算符 % ）。
`rmul` (其他)	返回序列和其他的反向乘法，逐元素进行（二元运算符 * ）。
`rolling` (窗口[, 最小周期])	提供滚动变换。
`round` ([小数位数])	将序列中的每个值四舍五入到给定的位数。
`rpow` (其他)	返回序列和其他的反指数幂，逐元素操作（二元运算符 ** ）。
`rsub` (其他)	返回序列和其他的反向减法，逐元素进行（二元运算符 - ）。
`rtruediv` (其他)	返回序列和其他的反向浮点除法，逐元素进行（二元运算符 / ）。
`sample` ([n, frac, replace, random_state, …])	从对象的轴中返回一个随机样本项。
`searchsorted` (值[, 边])	查找元素应插入以保持顺序的索引。
`sem` ([axis, skipna, ddof, numeric_only])	返回请求轴上的平均值的无偏标准误差。
`shift` ([periods, fill_value])	按所需周期数移动序列/索引。
`skew` ([axis, skipna, numeric_only])	返回通过N-1标准化的无偏斜度。
`sort_index` ([axis, level, ascending, …])	按标签排序对象（沿轴）
`sort_values` ([ascending, inplace, …])	按值排序。
`squeeze` ([轴])	将一维轴对象压缩为标量。
`std` ([axis, skipna, ddof, numeric_only])	返回样本标准差。
`sub` (其他)	返回序列和其他的元素减法结果，逐元素进行（二元运算符 - ）。
`subtract` (其他)	返回序列和其他的元素减法结果，逐元素进行（二元运算符 - ）。
`sum` ([axis, skipna, numeric_only, min_count])	返回值的总和。
`swapaxes` (i, j[, copy])	互换轴并适当交换值轴。
`swaplevel` ([i, j, copy])	在 MultiIndex 中交换层级 i 和 j。
`tail` ([n])	返回最后 n 行。
`take` (索引)	返回沿轴的给定位置索引中的元素。
`to_clipboard` ([excel, sep])	将对象复制到系统剪贴板。
`to_csv` ([路径, 分隔符, 空值表示, 列, 表头, …])	将对象写入逗号分隔值（csv）文件。
`to_dataframe` ([名称])	将 Series 转换为 DataFrame。
`to_dict` ([into])	将 Series 转换为 {标签 -> 值} 字典或类似字典的对象。
`to_excel` (excel_writer[, sheet_name, na_rep, …])	将对象写入 Excel 工作表。
`to_frame` ([name])	将 Series 转换为 DataFrame。
`to_json` ([路径, 压缩, 文件数量, …])	将对象转换为JSON字符串。
`to_latex` ([buf, columns, col_space, header, …])	将对象渲染为 LaTeX 表格环境表。
`to_list` ()	返回一个值的列表。
`to_markdown` ([buf, mode])	以Markdown友好格式打印Series或DataFrame。
`to_numpy` ()	表示此 DataFrame 或 Series 中的值的 NumPy ndarray。
`to_pandas` ()	返回一个 pandas Series。
`to_string` ([buf, na_rep, float_format, …])	渲染 Series 的字符串表示形式。
`tolist` ()	返回一个值的列表。
`transform` (func[, axis])	调用 `func` 生成与 self 相同类型的值，并且具有与输入相同的轴长度。
`transpose` (args, *kwargs)	返回转置，即自身。
`truediv` (其他)	返回序列和其他的浮点数除法，逐元素进行（二元运算符 / ）。
`truncate` ([before, after, axis, copy])	在某个索引值之前和之后截断一个Series或DataFrame。
`unique` ()	返回Series对象的唯一值。
`unstack` ([level])	解堆叠，又名
`update` (其他)	使用传递的Series中的非NA值就地修改Series。
`value_counts` ([normalize, sort, ascending, …])	返回一个包含唯一值计数的序列。
`var` ([axis, ddof, numeric_only])	返回无偏方差。
`where` (条件[, 其他])	在条件为假时替换值。
`xs` (键[, 级别])	返回序列的横截面。

属性

`T`	返回转置，即自身。
`at`	访问行/列标签对的一个单一值。
`axes`	返回行轴标签的列表。
`dtype`	返回底层数据的dtype对象。
`dtypes`	返回底层数据的dtype对象。
`empty`	如果当前对象为空，则返回 true。
`hasnans`	如果它有任何缺失值，则返回True。
`iat`	通过整数位置访问行/列对的单个值。
`iloc`	纯基于整数位置的索引，用于按位置选择。
`索引`	Series 的索引（轴标签）列。
`is_monotonic`	返回布尔值，判断对象中的值是否单调递增。
`is_monotonic_decreasing`	返回布尔值，判断对象中的值是否单调递减。
`is_monotonic_increasing`	返回布尔值，判断对象中的值是否单调递增。
`is_unique`	返回对象中的值是否唯一的布尔值
`loc`	通过标签或布尔序列访问一组行和列。
`name`	返回 Series 的名称。
`ndim`	返回一个表示数组维数数量的整数。
`形状`	返回底层数据形状的元组。
`大小`	返回一个表示此对象中元素数量的整数。
`values`	返回DataFrame或Series的Numpy表示形式。

系列

pyspark.pandas.Series.index