pyspark.pandas.Series.autocorr ¶
-
Series.
autocorr
( lag : int = 1 ) → float [source] ¶ -
计算滞后N的自相关。
此方法计算序列与其自身移动后的皮尔逊相关系数。
注意
当前的rank实现使用了Spark的Window,但没有指定分区规范。这会导致将所有数据移动到单个机器的单个分区中,可能会导致严重的性能下降。避免在大数据集上使用此方法。
新增于版本 3.4.0。
- Parameters
-
- lag int, default 1
-
在执行自相关之前要应用的滞后数。
- Returns
-
- float
-
自身与自身偏移lag后的皮尔逊相关系数。
另请参阅
-
Series.corr
-
计算两个序列之间的相关性。
-
Series.shift
-
将索引按所需周期数进行偏移。
-
DataFrame.corr
-
计算列之间的成对相关性。
注释
如果皮尔逊相关性未正确定义,返回‘NaN’。
示例
>>> s = ps.Series([.2, .0, .6, .2, np.nan, .5, .6]) >>> s.autocorr() -0.141219... >>> s.autocorr(0) 1.0... >>> s.autocorr(2) 0.970725... >>> s.autocorr(-3) 0.277350... >>> s.autocorr(5) -1.000000... >>> s.autocorr(6) nan
如果皮尔逊相关性未正确定义,则返回‘NaN’。
>>> s = ps.Series([1, 0, 0, 0]) >>> s.autocorr() nan