pyspark.sql.functions.collect_list

没有需要翻译的内容。 collect_list ( col : ColumnOrName ) → pyspark.sql.column.Column [source]

聚合函数:返回带有重复项的对象列表。

在版本 1.6.0 中新增。

在版本 3.4.0 中更改: 支持 Spark Connect。

Parameters
col or str

用于计算的目标列。

Returns

包含重复项的对象列表。

注释

这个函数是非确定性的,因为收集结果的顺序取决于行的顺序,而行的顺序在经过洗牌后可能是非确定性的。

示例

>>> df2 = spark.createDataFrame([(2,), (5,), (5,)], ('age',))
>>> df2.agg(collect_list('age')).collect()
[Row(collect_list(age)=[2, 5, 5])]