pyspark.pandas.groupby.GroupBy.diff

GroupBy. diff ( periods : int = 1 ) → FrameLike [source]

元素的第一个离散差分。

计算DataFrame元素与DataFrame组中另一个元素的差异(默认是与同一列中前一行的元素进行比较)。

Parameters
periods int, default 1

用于计算差异的移位周期,接受负值。

Returns
diffed DataFrame or Series

示例

>>> df = ps.DataFrame({'a': [1, 2, 3, 4, 5, 6],
...                    'b': [1, 1, 2, 3, 5, 8],
...                    'c': [1, 4, 9, 16, 25, 36]}, columns=['a', 'b', 'c'])
>>> df
   a  b   c
0  1  1   1
1  2  1   4
2  3  2   9
3  4  3  16
4  5  5  25
5  6  8  36
>>> df.groupby(['b']).diff().sort_index()
     a    c
0  NaN  NaN
1  1.0  3.0
2  NaN  NaN
3  NaN  NaN
4  NaN  NaN
5  NaN  NaN

组中与前一列的差异。

>>> df.groupby(['b'])['a'].diff().sort_index()
0    NaN
1    1.0
2    NaN
3    NaN
4    NaN
5    NaN
Name: a, dtype: float64