pyspark.pandas.Series ¶
-
class
pyspark.pandas.
Series
( data = None , index = None , dtype = None , name = None , copy = False , fastpath = False ) [source] ¶ -
pandas-on-Spark 系列,逻辑上对应于 pandas 系列。它在内部保存 Spark 列。
- Variables
-
-
_internal – 用于管理元数据的内部不可变框架。
-
_psdf – 父级的pandas-on-Spark DataFrame
-
- Parameters
-
- data array-like, dict, or scalar value, pandas Series
-
包含存储在Series中的数据 请注意,如果 data 是pandas Series,则不应使用其他参数。
- index array-like or Index (1d)
-
值必须是可哈希的,并且与 数据 的长度相同。 允许非唯一索引值。如果没有提供,将默认为 RangeIndex(0, 1, 2, …, n)。如果同时使用了字典和索引序列,索引将覆盖字典中找到的键。
- dtype numpy.dtype or None
-
如果为 None,dtype 将被推断
- copy boolean, default False
-
复制输入数据
方法
abs
()返回一个包含每个元素绝对数值的Series/DataFrame。
add
(其他[, 填充值])返回序列和其他元素的加法运算结果,逐元素进行(二元运算符 + )。
add_prefix
(前缀)使用字符串 前缀 作为标签前缀。
add_suffix
(后缀)后缀标签带有字符串后缀。
agg
(函数)在指定轴上使用一个或多个操作进行聚合。
aggregate
(func)在指定轴上使用一个或多个操作进行聚合。
align
(其他[, 连接, 轴, 复制])使用指定的连接方法将两个对象在其轴上对齐。
all
([axis, skipna])返回是否所有元素都为真。
any
([axis])返回是否有任何元素为真。
append
(to_append[, ignore_index, …])连接两个或多个序列。
apply
(函数[, 参数])在Series的值上调用函数。
argmax
([axis, skipna])返回Series中最大值的整数位置。
argmin
([axis, skipna])返回Series中最小值的整数位置。
argsort
()返回用于对Series值进行排序的整数索引。
asof
(where)返回在 where 之前没有任何NaN的最后一行。
astype
(dtype)将 pandas-on-Spark 对象转换为指定的数据类型
dtype
。at_time
(时间[, asof, 轴])选择特定时间点的值(例如:上午9:30)。
autocorr
([滞后])计算滞后N的自相关。
backfill
([axis, inplace, limit])同义词为 DataFrame.fillna() 或 Series.fillna() 并带有
method=`bfill`
。between
(左, 右[, 包含])返回布尔序列,等价于 left <= series <= right。
between_time
(开始时间, 结束时间[, …])选择一天中特定时间段内的值(例如:上午9:00-9:30)。
bfill
([axis, inplace, limit])同义词为 DataFrame.fillna() 或 Series.fillna() 并带有
method=`bfill`
。bool
()返回当前对象中单个元素的布尔值。
clip
([下限, 上限, 原地])在输入阈值处修剪值。
combine_first
(其他)合并 Series 的值,优先选择调用 Series 的值。
compare
(other[, keep_shape, keep_equal])与另一个序列进行比较并显示差异。
copy
([deep])复制此对象的索引和数据。
corr
(其他[, 方法, 最小周期])计算与 其他 序列的相关性,排除缺失值。
count
([axis, numeric_only])计算每列的非NA单元格数量。
cov
(其他[, min_periods, ddof])计算与 Series 的协方差,排除缺失值。
cummax
([skipna])返回 DataFrame 或 Series 轴上的累积最大值。
cummin
([skipna])返回DataFrame或Series轴上的累积最小值。
cumprod
([skipna])返回 DataFrame 或 Series 轴上的累积乘积。
cumsum
([skipna])返回 DataFrame 或 Series 轴上的累计和。
describe
([percentiles])生成描述性统计数据,总结数据集分布的集中趋势、离散度和形状,排除
NaN
值。diff
([periods])元素的第一个离散差分。
div
(其他)返回序列和其他的浮点数除法,逐元素进行(二元运算符 / )。
divide
(其他)返回序列和其他的浮点数除法,逐元素进行(二元运算符 / )。
divmod
(其他)返回序列和另一个序列的整数除法和模数,逐元素进行(二元运算符 divmod )。
dot
(其他)计算Series与other列之间的点积。
drop
([labels, index, columns, level, inplace])返回移除了指定索引标签的序列。
drop_duplicates
([keep, inplace])返回已删除重复值的序列。
droplevel
(级别)返回移除请求的索引级别后的序列。
dropna
([axis, inplace])返回一个删除了缺失值的新序列。
duplicated
([保留])指示重复的Series值。
eq
(其他)比较当前值是否等于另一个值。
equals
(其他)比较当前值是否等于另一个值。
ewm
([com, span, halflife, alpha, …])提供指数加权窗口变换。
expanding
([min_periods])提供扩展转换。
explode
()将类似列表的每个元素转换为一行。
factorize
([sort, na_sentinel])将对象编码为枚举类型或分类变量。
ffill
([axis, inplace, limit])同义词为 DataFrame.fillna() 或 Series.fillna() 使用
method=`ffill`
。fillna
([value, method, axis, inplace, limit])填充NA/NaN值。
filter
([items, like, regex, axis])根据指定索引中的标签对数据框的行或列进行子集化。
first
(偏移量)根据日期偏移选择时间序列数据的前几个周期。
检索第一个有效值的索引。
floordiv
(其他)返回序列和其他的整数除法,逐元素进行(二元运算符 // )。
ge
(其他)比较当前值是否大于或等于另一个值。
get
(键[, 默认值])从对象中获取给定键的项(DataFrame列、Panel切片等)。
get_dtype_counts
()返回此对象中唯一数据类型的计数。
groupby
(by[, axis, as_index, dropna])使用一个或多个列对DataFrame或Series进行分组。
gt
(其他)比较当前值是否大于另一个值。
head
([n])返回前n行。
hist
([bins])绘制DataFrame列的一个直方图。
idxmax
([skipna])返回最大值的行标签。
idxmin
([skipna])返回最小值的行标签。
interpolate
([方法, 限制, …])使用插值方法填充NaN值。
isin
(值)检查 值 是否包含在Series或Index中。
isna
()检测现有的(非缺失的)值。
isnull
()检测现有的(非缺失的)值。
item
()返回底层数据的第一个元素作为Python标量。
items
()惰性地迭代(索引,值)元组。
iteritems
()这是
items
的别名。keys
()返回索引的别名。
kurt
([axis, skipna, numeric_only])返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。
kurtosis
([axis, skipna, numeric_only])返回使用Fisher定义的无偏峰度(正态分布的峰度 == 0.0)。
last
(偏移量)根据日期偏移选择时间序列数据的最终周期。
返回最后一个非NA/null值的索引。
le
(其他)比较当前值是否小于或等于另一个值。
lt
(其他)比较当前值是否小于另一个值。
mad
()返回值的平均绝对偏差。
map
(arg[, na_action])根据输入对应关系映射Series的值。
mask
(条件[, 其他])在条件为真时替换值。
max
([axis, skipna, numeric_only])返回值的最大值。
mean
([axis, skipna, numeric_only])返回值的平均值。
median
([axis, skipna, numeric_only, accuracy])返回请求轴上值的中位数。
min
([axis, skipna, numeric_only])返回值的最小值。
mod
(其他)返回序列和其他的模,逐元素进行(二元运算符 % )。
mode
([dropna])返回数据集的众数。
mul
(其他)返回序列和其他元素的乘积,逐元素进行(二元运算符 * )。
multiply
(其他)返回序列和其他元素的乘积,逐元素进行(二元运算符 * )。
ne
(其他)比较当前值是否不等于另一个值。
nlargest
([n])返回最大的 n 个元素。
notna
()检测现有的(非缺失的)值。
notnull
()检测现有的(非缺失的)值。
nsmallest
([n])返回最小的 n 个元素。
nunique
([dropna, approx, rsd])返回对象中唯一元素的数量。
pad
([axis, inplace, limit])同义词为 DataFrame.fillna() 或 Series.fillna() 使用
method=`ffill`
。pct_change
([periods])当前元素与前一个元素之间的百分比变化。
pipe
(函数, *参数, **关键字参数)应用函数(self, *args, **kwargs)。
pop
(项)返回项目并从系列中删除。
pow
(其他)返回序列与序列及其他元素的指数幂(二元运算符 ** )。
prod
([axis, skipna, numeric_only, min_count])返回值的乘积。
product
([axis, skipna, numeric_only, min_count])返回值的乘积。
quantile
([q, accuracy])返回给定分位数处的值。
radd
(其他[, 填充值])返回序列和其他的反向加法,逐元素进行(二元运算符 + )。
rank
([method, ascending, numeric_only])沿轴计算数值数据的排名(1到n)。
rdiv
(其他)返回序列和其他的反向浮点除法,逐元素进行(二元运算符 / )。
rdivmod
(其他)返回序列和另一个序列的整数除法和模,逐元素操作(二元运算符 rdivmod )。
reindex
([index, fill_value])将系列数据对齐到新的索引,并可选择填充逻辑,将NA/NaN放置在没有先前索引值的位置。
reindex_like
(其他)返回一个与另一个对象具有匹配索引的序列。
rename
([index])修改序列索引标签或名称。
rename_axis
([mapper, index, inplace])设置索引或列的轴名称。
repeat
(重复次数)重复一个Series中的元素。
replace
([to_replace, value, regex])将to_replace中给定的值替换为value。
resample
(规则[, 关闭, 标签, 在])重采样时间序列数据。
reset_index
([level, drop, name, inplace])生成一个新的DataFrame或Series,并重置索引。
rfloordiv
(其他)返回序列和其他的反向整数除法,逐元素进行(二元运算符 // )。
rmod
(其他)返回序列和其他的反向模数,逐元素进行(二元运算符 % )。
rmul
(其他)返回序列和其他的反向乘法,逐元素进行(二元运算符 * )。
rolling
(窗口[, 最小周期])提供滚动变换。
round
([小数位数])将序列中的每个值四舍五入到给定的位数。
rpow
(其他)返回序列和其他的反指数幂,逐元素操作(二元运算符 ** )。
rsub
(其他)返回序列和其他的反向减法,逐元素进行(二元运算符 - )。
rtruediv
(其他)返回序列和其他的反向浮点除法,逐元素进行(二元运算符 / )。
sample
([n, frac, replace, random_state, …])从对象的轴中返回一个随机样本项。
searchsorted
(值[, 边])查找元素应插入以保持顺序的索引。
sem
([axis, skipna, ddof, numeric_only])返回请求轴上的平均值的无偏标准误差。
shift
([periods, fill_value])按所需周期数移动序列/索引。
skew
([axis, skipna, numeric_only])返回通过N-1标准化的无偏斜度。
sort_index
([axis, level, ascending, …])按标签排序对象(沿轴)
sort_values
([ascending, inplace, …])按值排序。
squeeze
([轴])将一维轴对象压缩为标量。
std
([axis, skipna, ddof, numeric_only])返回样本标准差。
sub
(其他)返回序列和其他的元素减法结果,逐元素进行(二元运算符 - )。
subtract
(其他)返回序列和其他的元素减法结果,逐元素进行(二元运算符 - )。
sum
([axis, skipna, numeric_only, min_count])返回值的总和。
swapaxes
(i, j[, copy])互换轴并适当交换值轴。
swaplevel
([i, j, copy])在 MultiIndex 中交换层级 i 和 j。
tail
([n])返回最后 n 行。
take
(索引)返回沿轴的给定 位置 索引中的元素。
to_clipboard
([excel, sep])将对象复制到系统剪贴板。
to_csv
([路径, 分隔符, 空值表示, 列, 表头, …])将对象写入逗号分隔值(csv)文件。
to_dataframe
([名称])将 Series 转换为 DataFrame。
to_dict
([into])将 Series 转换为 {标签 -> 值} 字典或类似字典的对象。
to_excel
(excel_writer[, sheet_name, na_rep, …])将对象写入 Excel 工作表。
to_frame
([name])将 Series 转换为 DataFrame。
to_json
([路径, 压缩, 文件数量, …])将对象转换为JSON字符串。
to_latex
([buf, columns, col_space, header, …])将对象渲染为 LaTeX 表格环境表。
to_list
()返回一个值的列表。
to_markdown
([buf, mode])以Markdown友好格式打印Series或DataFrame。
to_numpy
()表示此 DataFrame 或 Series 中的值的 NumPy ndarray。
to_pandas
()返回一个 pandas Series。
to_string
([buf, na_rep, float_format, …])渲染 Series 的字符串表示形式。
tolist
()返回一个值的列表。
transform
(func[, axis])调用
func
生成与 self 相同类型的值,并且具有与输入相同的轴长度。transpose
(*args, **kwargs)返回转置,即自身。
truediv
(其他)返回序列和其他的浮点数除法,逐元素进行(二元运算符 / )。
truncate
([before, after, axis, copy])在某个索引值之前和之后截断一个Series或DataFrame。
unique
()返回Series对象的唯一值。
unstack
([level])解堆叠,又名
update
(其他)使用传递的Series中的非NA值就地修改Series。
value_counts
([normalize, sort, ascending, …])返回一个包含唯一值计数的序列。
var
([axis, ddof, numeric_only])返回无偏方差。
where
(条件[, 其他])在条件为假时替换值。
xs
(键[, 级别])返回序列的横截面。
属性
返回转置,即自身。
访问行/列标签对的一个单一值。
返回行轴标签的列表。
返回底层数据的dtype对象。
返回底层数据的dtype对象。
如果当前对象为空,则返回 true。
如果它有任何缺失值,则返回True。
通过整数位置访问行/列对的单个值。
纯基于整数位置的索引,用于按位置选择。
Series 的索引(轴标签)列。
返回布尔值,判断对象中的值是否单调递增。
返回布尔值,判断对象中的值是否单调递减。
返回布尔值,判断对象中的值是否单调递增。
返回对象中的值是否唯一的布尔值
通过标签或布尔序列访问一组行和列。
返回 Series 的名称。
返回一个表示数组维数数量的整数。
返回底层数据形状的元组。
返回一个表示此对象中元素数量的整数。
返回DataFrame或Series的Numpy表示形式。