pyspark.pandas.Series.autocorr

Series. autocorr ( lag : int = 1 ) → float [source]

计算滞后N的自相关。

此方法计算序列与其自身移动后的皮尔逊相关系数。

注意

当前的rank实现使用了Spark的Window,但没有指定分区规范。这会导致将所有数据移动到单个机器的单个分区中,可能会导致严重的性能下降。避免在大数据集上使用此方法。

新增于版本 3.4.0。

Parameters
lag int, default 1

在执行自相关之前要应用的滞后数。

Returns
float

自身与自身偏移lag后的皮尔逊相关系数。

另请参阅

Series.corr

计算两个序列之间的相关性。

Series.shift

将索引按所需周期数进行偏移。

DataFrame.corr

计算列之间的成对相关性。

注释

如果皮尔逊相关性未正确定义,返回‘NaN’。

示例

>>> s = ps.Series([.2, .0, .6, .2, np.nan, .5, .6])
>>> s.autocorr()  
-0.141219...
>>> s.autocorr(0)  
1.0...
>>> s.autocorr(2)  
0.970725...
>>> s.autocorr(-3)  
0.277350...
>>> s.autocorr(5)  
-1.000000...
>>> s.autocorr(6)  
nan

如果皮尔逊相关性未正确定义,则返回‘NaN’。

>>> s = ps.Series([1, 0, 0, 0])
>>> s.autocorr()
nan