pyspark.RDD.reduce ¶
-
RDD.
reduce
( f : Callable [ [ T , T ] , T ] ) → T [source] ¶ -
使用指定的可交换和结合的二元运算符减少此RDD的元素。目前仅在分区本地进行减少。
新增于版本 0.7.0。
- Parameters
-
- f function
-
reduce 函数
- Returns
-
- T
-
聚合结果
示例
>>> from operator import add >>> sc.parallelize([1, 2, 3, 4, 5]).reduce(add) 15 >>> sc.parallelize((2 for _ in range(10))).map(lambda x: 1).cache().reduce(add) 10 >>> sc.parallelize([]).reduce(add) Traceback (most recent call last): ... ValueError: Can not reduce() empty RDD