pyspark.RDD.mapPartitions

RDD. mapPartitions ( f : Callable [ [ Iterable [ T ] ] , Iterable [ U ] ] , preservesPartitioning : bool = False ) → pyspark.rdd.RDD [ U ] [source]

通过将一个函数应用于该RDD的每个分区,返回一个新的RDD。

新增于版本 0.7.0。

Parameters
f function

在RDD的每个分区上运行的函数

preservesPartitioning bool, optional, default False

指示输入函数是否保留分区器,除非这是对RDD并且输入

Returns
RDD

通过将一个函数应用于每个分区来创建一个新的 RDD

示例

>>> rdd = sc.parallelize([1, 2, 3, 4], 2)
>>> def f(iterator): yield sum(iterator)
...
>>> rdd.mapPartitions(f).collect()
[3, 7]