pyspark.pandas.Series.cumsum ¶
-
Series.
cumsum
( skipna : bool = True ) → FrameLike ¶ -
返回 DataFrame 或 Series 轴上的累计和。
返回一个与原数据相同大小的DataFrame或Series,包含累计和。
注意
当前的cumsum实现使用了Spark的Window,但没有指定分区规范。这会导致将所有数据移动到单个机器的单个分区中,可能会导致严重的性能下降。避免在大数据集上使用此方法。
- Parameters
-
- skipna: boolean, default True
-
排除NA/null值。如果整行/整列都是NA,结果将是NA。
- Returns
-
- DataFrame or Series
另请参阅
-
DataFrame.sum
-
返回DataFrame轴上的总和。
-
DataFrame.cummax
-
返回DataFrame轴上的累积最大值。
-
DataFrame.cummin
-
返回DataFrame轴上的累积最小值。
-
DataFrame.cumsum
-
返回DataFrame轴上的累计和。
-
DataFrame.cumprod
-
返回DataFrame轴上的累积乘积。
-
Series.sum
-
返回沿序列轴的总和。
-
Series.cummax
-
返回沿 Series 轴的累积最大值。
-
Series.cummin
-
返回沿序列轴的累积最小值。
-
Series.cumsum
-
返回沿Series轴的累积和。
-
Series.cumprod
-
返回沿 Series 轴的累积乘积。
示例
>>> df = ps.DataFrame([[2.0, 1.0], [3.0, None], [1.0, 0.0]], columns=list('AB')) >>> df A B 0 2.0 1.0 1 3.0 NaN 2 1.0 0.0
默认情况下,遍历行并在每一列中找到总和。
>>> df.cumsum() A B 0 2.0 1.0 1 5.0 NaN 2 6.0 1.0
它在 Series 中工作方式相同。
>>> df.A.cumsum() 0 2.0 1 5.0 2 6.0 Name: A, dtype: float64