pyspark.RDD.mapPartitions ¶
-
RDD.
mapPartitions
( f : Callable [ [ Iterable [ T ] ] , Iterable [ U ] ] , preservesPartitioning : bool = False ) → pyspark.rdd.RDD [ U ] [source] ¶ -
通过将一个函数应用于该RDD的每个分区,返回一个新的RDD。
新增于版本 0.7.0。
- Parameters
-
- f function
-
在RDD的每个分区上运行的函数
- preservesPartitioning bool, optional, default False
-
指示输入函数是否保留分区器,除非这是对RDD并且输入
- Returns
另请参阅
示例
>>> rdd = sc.parallelize([1, 2, 3, 4], 2) >>> def f(iterator): yield sum(iterator) ... >>> rdd.mapPartitions(f).collect() [3, 7]