pyspark.RDD.mapPartitions ¶

RDD. mapPartitions ( f : Callable [ [ Iterable [ T ] ] , Iterable [ U ] ] , preservesPartitioning : bool = False ) → pyspark.rdd.RDD [ U ] [source] ¶

通过将一个函数应用于该RDD的每个分区，返回一个新的RDD。

新增于版本 0.7.0。

Parameters

f function: 在RDD的每个分区上运行的函数
preservesPartitioning bool, optional, default False: 指示输入函数是否保留分区器，除非这是对RDD并且输入

Returns

RDD: 通过将一个函数应用于每个分区来创建一个新的 RDD

另请参阅

RDD.map()
RDD.flatMap()
RDD.mapPartitionsWithIndex()
RDD.mapPartitionsWithSplit()
RDDBarrier.mapPartitions()

示例

           >>> rdd = sc.parallelize([1, 2, 3, 4], 2)
>>> def f(iterator): yield sum(iterator)
...
>>> rdd.mapPartitions(f).collect()
[3, 7]

          

pyspark.RDD.map

pyspark.RDD.mapPartitionsWithIndex