pyspark.RDD.top

RDD. top ( num : int , key : Optional [ Callable [ [ T ] , S ] ] = None ) → List [ T ] [source]

从RDD中获取前N个元素。

新增于版本 1.0.0。

Parameters
num int

前 N 个

key function, optional

用于生成比较键的函数

Returns
list

前N个元素

注释

此方法仅应在预期结果数组较小的情况下使用,因为所有数据都会加载到驱动程序的内存中。

它返回按降序排序的列表。

示例

>>> sc.parallelize([10, 4, 2, 12, 3]).top(1)
[12]
>>> sc.parallelize([2, 3, 4, 5, 6], 2).top(2)
[6, 5]
>>> sc.parallelize([10, 4, 2, 12, 3]).top(3, key=str)
[4, 3, 2]