pyspark.pandas.Series.corr ¶

Series. corr ( other : pyspark.pandas.series.Series , method : str = 'pearson' , min_periods : Optional [ int ] = None ) → float [source] ¶

计算与其他序列的相关性，排除缺失值。

新增于版本 3.3.0。

Parameters

other Series

method {‘pearson’, ‘spearman’, ‘kendall’}

pearson : 标准相关系数
spearman : 斯皮尔曼等级相关
kendall : 肯德尔Tau相关系数

版本 3.4.0 更改: 支持 method 参数的 ‘kendall’

min_periods int, optional

所需的最小观测数量以获得有效结果。

新增于版本 3.4.0。

Returns

correlation float

注释

肯德尔相关性的复杂度是 O(#行数 * #行数)，如果数据集太大，建议在相关性计算之前进行采样。

示例

           >>> df = ps.DataFrame({'s1': [.2, .0, .6, .2],
...                    's2': [.3, .6, .0, .1]})
>>> s1 = df.s1
>>> s2 = df.s2
>>> s1.corr(s2, method='pearson')
-0.85106...

          

           >>> s1.corr(s2, method='spearman')
-0.94868...

           >>> s1.corr(s2, method='kendall')
-0.91287...

           >>> s1 = ps.Series([1, np.nan, 2, 1, 1, 2, 3])
>>> s2 = ps.Series([3, 4, 1, 1, 5])

           >>> with ps.option_context("compute.ops_on_diff_frames", True):
...     s1.corr(s2, method="pearson")
-0.52223...

          

           >>> with ps.option_context("compute.ops_on_diff_frames", True):
...     s1.corr(s2, method="spearman")
-0.54433...

          

           >>> with ps.option_context("compute.ops_on_diff_frames", True):
...     s1.corr(s2, method="kendall")
-0.51639...

          

           >>> with ps.option_context("compute.ops_on_diff_frames", True):
...     s1.corr(s2, method="kendall", min_periods=5)
nan

          

pyspark.pandas.Series.clip

pyspark.pandas.Series.count