pyspark.pandas.Series.autocorr ¶

Series. autocorr ( lag : int = 1 ) → float [source] ¶

计算滞后N的自相关。

此方法计算序列与其自身移动后的皮尔逊相关系数。

注意

当前的rank实现使用了Spark的Window，但没有指定分区规范。这会导致将所有数据移动到单个机器的单个分区中，可能会导致严重的性能下降。避免在大数据集上使用此方法。

新增于版本 3.4.0。

Parameters

lag int, default 1: 在执行自相关之前要应用的滞后数。

Returns

float: 自身与自身偏移lag后的皮尔逊相关系数。

另请参阅

Series.corr: 计算两个序列之间的相关性。
Series.shift: 将索引按所需周期数进行偏移。
DataFrame.corr: 计算列之间的成对相关性。

注释

如果皮尔逊相关性未正确定义，返回‘NaN’。

示例

           >>> s = ps.Series([.2, .0, .6, .2, np.nan, .5, .6])
>>> s.autocorr()  
-0.141219...
>>> s.autocorr(0)  
1.0...
>>> s.autocorr(2)  
0.970725...
>>> s.autocorr(-3)  
0.277350...
>>> s.autocorr(5)  
-1.000000...
>>> s.autocorr(6)  
nan

          

如果皮尔逊相关性未正确定义，则返回‘NaN’。

           >>> s = ps.Series([1, 0, 0, 0])
>>> s.autocorr()
nan

          

pyspark.pandas.Series.any

pyspark.pandas.Series.between