pyspark.pandas.Series

class pyspark.pandas. Series ( data = None , index = None , dtype = None , name = None , copy = False , fastpath = False ) [source]

pandas-on-Spark 系列,逻辑上对应于 pandas 系列。它在内部保存 Spark 列。

Variables
  • _internal – 用于管理元数据的内部不可变框架。

  • _psdf – 父级的pandas-on-Spark DataFrame

Parameters
data array-like, dict, or scalar value, pandas Series

包含存储在Series中的数据 请注意,如果 data 是pandas Series,则不应使用其他参数。

index array-like or Index (1d)

值必须是可哈希的,并且与 数据 的长度相同。 允许非唯一索引值。如果没有提供,将默认为 RangeIndex(0, 1, 2, …, n)。如果同时使用了字典和索引序列,索引将覆盖字典中找到的键。

dtype numpy.dtype or None

如果为 None,dtype 将被推断

copy boolean, default False

复制输入数据

方法

abs ()

返回一个包含每个元素绝对数值的Series/DataFrame。

add (其他[, 填充值])

返回序列和其他元素的加法运算结果,逐元素进行(二元运算符 + )。

add_prefix (前缀)

使用字符串 前缀 作为标签前缀。

add_suffix (后缀)

后缀标签带有字符串后缀。

agg (函数)

在指定轴上使用一个或多个操作进行聚合。

aggregate (func)

在指定轴上使用一个或多个操作进行聚合。

align (其他[, 连接, 轴, 复制])

使用指定的连接方法将两个对象在其轴上对齐。

all ([axis, skipna])

返回是否所有元素都为真。

any ([axis])

返回是否有任何元素为真。

append (to_append[, ignore_index, …])

连接两个或多个序列。

apply (函数[, 参数])

在Series的值上调用函数。

argmax ([axis, skipna])

返回Series中最大值的整数位置。

argmin ([axis, skipna])

返回Series中最小值的整数位置。

argsort ()

返回用于对Series值进行排序的整数索引。

asof (where)

返回在 where 之前没有任何NaN的最后一行。

astype (dtype)

将 pandas-on-Spark 对象转换为指定的数据类型 dtype

at_time (时间[, asof, 轴])

选择特定时间点的值(例如:上午9:30)。

autocorr ([滞后])

计算滞后N的自相关。

backfill ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 并带有 method=`bfill`

between (左, 右[, 包含])

返回布尔序列,等价于 left <= series <= right。

between_time (开始时间, 结束时间[, …])

选择一天中特定时间段内的值(例如:上午9:00-9:30)。

bfill ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 并带有 method=`bfill`

bool ()

返回当前对象中单个元素的布尔值。

clip ([下限, 上限, 原地])

在输入阈值处修剪值。

combine_first (其他)

合并 Series 的值,优先选择调用 Series 的值。

compare (other[, keep_shape, keep_equal])

与另一个序列进行比较并显示差异。

copy ([deep])

复制此对象的索引和数据。

corr (其他[, 方法, 最小周期])

计算与 其他 序列的相关性,排除缺失值。

count ([axis, numeric_only])

计算每列的非NA单元格数量。

cov (其他[, min_periods, ddof])

计算与 Series 的协方差,排除缺失值。

cummax ([skipna])

返回 DataFrame 或 Series 轴上的累积最大值。

cummin ([skipna])

返回DataFrame或Series轴上的累积最小值。

cumprod ([skipna])

返回 DataFrame 或 Series 轴上的累积乘积。

cumsum ([skipna])

返回 DataFrame 或 Series 轴上的累计和。

describe ([percentiles])

生成描述性统计数据,总结数据集分布的集中趋势、离散度和形状,排除 NaN 值。

diff ([periods])

元素的第一个离散差分。

div (其他)

返回序列和其他的浮点数除法,逐元素进行(二元运算符 / )。

divide (其他)

返回序列和其他的浮点数除法,逐元素进行(二元运算符 / )。

divmod (其他)

返回序列和另一个序列的整数除法和模数,逐元素进行(二元运算符 divmod )。

dot (其他)

计算Series与other列之间的点积。

drop ([labels, index, columns, level, inplace])

返回移除了指定索引标签的序列。

drop_duplicates ([keep, inplace])

返回已删除重复值的序列。

droplevel (级别)

返回移除请求的索引级别后的序列。

dropna ([axis, inplace])

返回一个删除了缺失值的新序列。

duplicated ([保留])

指示重复的Series值。

eq (其他)

比较当前值是否等于另一个值。

equals (其他)

比较当前值是否等于另一个值。

ewm ([com, span, halflife, alpha, …])

提供指数加权窗口变换。

expanding ([min_periods])

提供扩展转换。

explode ()

将类似列表的每个元素转换为一行。

factorize ([sort, na_sentinel])

将对象编码为枚举类型或分类变量。

ffill ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 使用 method=`ffill`

fillna ([value, method, axis, inplace, limit])

填充NA/NaN值。

filter ([items, like, regex, axis])

根据指定索引中的标签对数据框的行或列进行子集化。

first (偏移量)

根据日期偏移选择时间序列数据的前几个周期。

first_valid_index ()

检索第一个有效值的索引。

floordiv (其他)

返回序列和其他的整数除法,逐元素进行(二元运算符 // )。

ge (其他)

比较当前值是否大于或等于另一个值。

get (键[, 默认值])

从对象中获取给定键的项(DataFrame列、Panel切片等)。

get_dtype_counts ()

返回此对象中唯一数据类型的计数。

groupby (by[, axis, as_index, dropna])

使用一个或多个列对DataFrame或Series进行分组。

gt (其他)

比较当前值是否大于另一个值。

head ([n])

返回前n行。

hist ([bins])

绘制DataFrame列的一个直方图。

idxmax ([skipna])

返回最大值的行标签。

idxmin ([skipna])

返回最小值的行标签。

interpolate ([方法, 限制, …])

使用插值方法填充NaN值。

isin (值)

检查 是否包含在Series或Index中。

isna ()

检测现有的(非缺失的)值。

isnull ()

检测现有的(非缺失的)值。

item ()

返回底层数据的第一个元素作为Python标量。

items ()

惰性地迭代(索引,值)元组。

iteritems ()

这是 items 的别名。

keys ()

返回索引的别名。

kurt ([axis, skipna, numeric_only])

返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。

kurtosis ([axis, skipna, numeric_only])

返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。

last (偏移量)

根据日期偏移选择时间序列数据的最终周期。

last_valid_index ()

返回最后一个非NA/null值的索引。

le (其他)

比较当前值是否小于或等于另一个值。

lt (其他)

比较当前值是否小于另一个值。

mad ()

返回值的平均绝对偏差。

map (arg[, na_action])

根据输入对应关系映射Series的值。

mask (条件[, 其他])

在条件为真时替换值。

max ([axis, skipna, numeric_only])

返回值的最大值。

mean ([axis, skipna, numeric_only])

返回值的平均值。

median ([axis, skipna, numeric_only, accuracy])

返回请求轴上值的中位数。

min ([axis, skipna, numeric_only])

返回值的最小值。

mod (其他)

返回序列和其他的模,逐元素进行(二元运算符 % )。

mode ([dropna])

返回数据集的众数。

mul (其他)

返回序列和其他元素的乘积,逐元素进行(二元运算符 * )。

multiply (其他)

返回序列和其他元素的乘积,逐元素进行(二元运算符 * )。

ne (其他)

比较当前值是否不等于另一个值。

nlargest ([n])

返回最大的 n 个元素。

notna ()

检测现有的(非缺失的)值。

notnull ()

检测现有的(非缺失的)值。

nsmallest ([n])

返回最小的 n 个元素。

nunique ([dropna, approx, rsd])

返回对象中唯一元素的数量。

pad ([axis, inplace, limit])

同义词为 DataFrame.fillna() Series.fillna() 使用 method=`ffill`

pct_change ([periods])

当前元素与前一个元素之间的百分比变化。

pipe (函数, *参数, **关键字参数)

应用函数(self, *args, **kwargs)。

pop (项)

返回项目并从系列中删除。

pow (其他)

返回序列与序列及其他元素的指数幂(二元运算符 ** )。

prod ([axis, skipna, numeric_only, min_count])

返回值的乘积。

product ([axis, skipna, numeric_only, min_count])

返回值的乘积。

quantile ([q, accuracy])

返回给定分位数处的值。

radd (其他[, 填充值])

返回序列和其他的反向加法,逐元素进行(二元运算符 + )。

rank ([method, ascending, numeric_only])

沿轴计算数值数据的排名(1到n)。

rdiv (其他)

返回序列和其他的反向浮点除法,逐元素进行(二元运算符 / )。

rdivmod (其他)

返回序列和另一个序列的整数除法和模,逐元素操作(二元运算符 rdivmod )。

reindex ([index, fill_value])

将系列数据对齐到新的索引,并可选择填充逻辑,将NA/NaN放置在没有先前索引值的位置。

reindex_like (其他)

返回一个与另一个对象具有匹配索引的序列。

rename ([index])

修改序列索引标签或名称。

rename_axis ([mapper, index, inplace])

设置索引或列的轴名称。

repeat (重复次数)

重复一个Series中的元素。

replace ([to_replace, value, regex])

将to_replace中给定的值替换为value。

resample (规则[, 关闭, 标签, 在])

重采样时间序列数据。

reset_index ([level, drop, name, inplace])

生成一个新的DataFrame或Series,并重置索引。

rfloordiv (其他)

返回序列和其他的反向整数除法,逐元素进行(二元运算符 // )。

rmod (其他)

返回序列和其他的反向模数,逐元素进行(二元运算符 % )。

rmul (其他)

返回序列和其他的反向乘法,逐元素进行(二元运算符 * )。

rolling (窗口[, 最小周期])

提供滚动变换。

round ([小数位数])

将序列中的每个值四舍五入到给定的位数。

rpow (其他)

返回序列和其他的反指数幂,逐元素操作(二元运算符 ** )。

rsub (其他)

返回序列和其他的反向减法,逐元素进行(二元运算符 - )。

rtruediv (其他)

返回序列和其他的反向浮点除法,逐元素进行(二元运算符 / )。

sample ([n, frac, replace, random_state, …])

从对象的轴中返回一个随机样本项。

searchsorted (值[, 边])

查找元素应插入以保持顺序的索引。

sem ([axis, skipna, ddof, numeric_only])

返回请求轴上的平均值的无偏标准误差。

shift ([periods, fill_value])

按所需周期数移动序列/索引。

skew ([axis, skipna, numeric_only])

返回通过N-1标准化的无偏斜度。

sort_index ([axis, level, ascending, …])

按标签排序对象(沿轴)

sort_values ([ascending, inplace, …])

按值排序。

squeeze ([轴])

将一维轴对象压缩为标量。

std ([axis, skipna, ddof, numeric_only])

返回样本标准差。

sub (其他)

返回序列和其他的元素减法结果,逐元素进行(二元运算符 - )。

subtract (其他)

返回序列和其他的元素减法结果,逐元素进行(二元运算符 - )。

sum ([axis, skipna, numeric_only, min_count])

返回值的总和。

swapaxes (i, j[, copy])

互换轴并适当交换值轴。

swaplevel ([i, j, copy])

在 MultiIndex 中交换层级 i 和 j。

tail ([n])

返回最后 n 行。

take (索引)

返回沿轴的给定 位置 索引中的元素。

to_clipboard ([excel, sep])

将对象复制到系统剪贴板。

to_csv ([路径, 分隔符, 空值表示, 列, 表头, …])

将对象写入逗号分隔值(csv)文件。

to_dataframe ([名称])

将 Series 转换为 DataFrame。

to_dict ([into])

将 Series 转换为 {标签 -> 值} 字典或类似字典的对象。

to_excel (excel_writer[, sheet_name, na_rep, …])

将对象写入 Excel 工作表。

to_frame ([name])

将 Series 转换为 DataFrame。

to_json ([路径, 压缩, 文件数量, …])

将对象转换为JSON字符串。

to_latex ([buf, columns, col_space, header, …])

将对象渲染为 LaTeX 表格环境表。

to_list ()

返回一个值的列表。

to_markdown ([buf, mode])

以Markdown友好格式打印Series或DataFrame。

to_numpy ()

表示此 DataFrame 或 Series 中的值的 NumPy ndarray。

to_pandas ()

返回一个 pandas Series。

to_string ([buf, na_rep, float_format, …])

渲染 Series 的字符串表示形式。

tolist ()

返回一个值的列表。

transform (func[, axis])

调用 func 生成与 self 相同类型的值,并且具有与输入相同的轴长度。

transpose (*args, **kwargs)

返回转置,即自身。

truediv (其他)

返回序列和其他的浮点数除法,逐元素进行(二元运算符 / )。

truncate ([before, after, axis, copy])

在某个索引值之前和之后截断一个Series或DataFrame。

unique ()

返回Series对象的唯一值。

unstack ([level])

解堆叠,又名

update (其他)

使用传递的Series中的非NA值就地修改Series。

value_counts ([normalize, sort, ascending, …])

返回一个包含唯一值计数的序列。

var ([axis, ddof, numeric_only])

返回无偏方差。

where (条件[, 其他])

在条件为假时替换值。

xs (键[, 级别])

返回序列的横截面。

属性

T

返回转置,即自身。

at

访问行/列标签对的一个单一值。

axes

返回行轴标签的列表。

dtype

返回底层数据的dtype对象。

dtypes

返回底层数据的dtype对象。

empty

如果当前对象为空,则返回 true。

hasnans

如果它有任何缺失值,则返回True。

iat

通过整数位置访问行/列对的单个值。

iloc

纯基于整数位置的索引,用于按位置选择。

索引

Series 的索引(轴标签)列。

is_monotonic

返回布尔值,判断对象中的值是否单调递增。

is_monotonic_decreasing

返回布尔值,判断对象中的值是否单调递减。

is_monotonic_increasing

返回布尔值,判断对象中的值是否单调递增。

is_unique

返回对象中的值是否唯一的布尔值

loc

通过标签或布尔序列访问一组行和列。

name

返回 Series 的名称。

ndim

返回一个表示数组维数数量的整数。

形状

返回底层数据形状的元组。

大小

返回一个表示此对象中元素数量的整数。

values

返回DataFrame或Series的Numpy表示形式。