pyspark.sql.functions.collect_list ¶
-
没有需要翻译的内容。
collect_list
( col : ColumnOrName ) → pyspark.sql.column.Column [source] ¶ -
聚合函数:返回带有重复项的对象列表。
在版本 1.6.0 中新增。
在版本 3.4.0 中更改: 支持 Spark Connect。
注释
这个函数是非确定性的,因为收集结果的顺序取决于行的顺序,而行的顺序在经过洗牌后可能是非确定性的。
示例
>>> df2 = spark.createDataFrame([(2,), (5,), (5,)], ('age',)) >>> df2.agg(collect_list('age')).collect() [Row(collect_list(age)=[2, 5, 5])]