pyspark.RDD.top ¶
-
RDD.
top
( num : int , key : Optional [ Callable [ [ T ] , S ] ] = None ) → List [ T ] [source] ¶ -
从RDD中获取前N个元素。
新增于版本 1.0.0。
- Parameters
-
- num int
-
前 N 个
- key function, optional
-
用于生成比较键的函数
- Returns
-
- list
-
前N个元素
注释
此方法仅应在预期结果数组较小的情况下使用,因为所有数据都会加载到驱动程序的内存中。
它返回按降序排序的列表。
示例
>>> sc.parallelize([10, 4, 2, 12, 3]).top(1) [12] >>> sc.parallelize([2, 3, 4, 5, 6], 2).top(2) [6, 5] >>> sc.parallelize([10, 4, 2, 12, 3]).top(3, key=str) [4, 3, 2]