pyspark.RDD.reduce

RDD. reduce ( f : Callable [ [ T , T ] , T ] ) → T [source]

使用指定的可交换和结合的二元运算符减少此RDD的元素。目前仅在分区本地进行减少。

新增于版本 0.7.0。

Parameters
f function

reduce 函数

Returns
T

聚合结果

示例

>>> from operator import add
>>> sc.parallelize([1, 2, 3, 4, 5]).reduce(add)
15
>>> sc.parallelize((2 for _ in range(10))).map(lambda x: 1).cache().reduce(add)
10
>>> sc.parallelize([]).reduce(add)
Traceback (most recent call last):
    ...
ValueError: Can not reduce() empty RDD