dask.bag.Bag

dask.bag.Bag¶

class dask.bag.Bag(dsk: Graph, name: str, npartitions: int)[源代码]¶

Python 对象的并行集合

示例

从序列创建包

>>> import dask.bag as db
>>> b = db.from_sequence(range(5))
>>> list(b.filter(lambda x: x % 2 == 0).map(lambda x: x * 10))
[0, 20, 40]

从文件名或文件名全局字符串创建包

>>> b = db.read_text('/path/to/mydata.*.json.gz').map(json.loads)  

手动创建（专家使用）

>>> dsk = {('x', 0): (range, 5),
...        ('x', 1): (range, 5),
...        ('x', 2): (range, 5)}
>>> b = db.Bag(dsk, 'x', npartitions=3)

>>> sorted(b.map(lambda x: x * 10))
[0, 0, 0, 10, 10, 10, 20, 20, 20, 30, 30, 30, 40, 40, 40]

>>> int(b.fold(lambda x, y: x + y))
30

__init__(dsk: Graph, name: str, npartitions: int)[源代码]¶

方法

`__init__`(dsk, name, npartitions)
`accumulate`(binop[, initial])	对序列重复应用二元函数，累积结果。
`all`([split_every])	所有元素都是真值吗？
`any`([split_every])	这些元素中有任何一个是真值吗？
`compute`(**kwargs)	计算这个 dask 集合
`count`([split_every])	计算元素的数量。
`distinct`([key])	集合中的不同元素
`filter`(predicate)	根据谓词函数过滤集合中的元素。
`flatten`()	将嵌套列表连接成一个长列表。
`fold`(binop[, combine, initial, split_every, ...])	可并行化归约
`foldby`(key, binop[, initial, combine, ...])	组合的归约和分组。
`frequencies`([split_every, sort])	统计每个不同元素的出现次数。
`groupby`(grouper[, method, npartitions, ...])	按键函数分组集合
`join`(other, on_self[, on_other])	将集合与另一个集合连接。
`map`(func, args, *kwargs)	将一个函数逐元素应用于一个或多个包。
`map_partitions`(func, args, *kwargs)	将一个函数应用于一个或多个包中的每个分区。
`max`([split_every])	最大元素
`mean`()	算术平均数
`min`([split_every])	最小元素
`persist`(**kwargs)	将此 dask 集合持久化到内存中
`pluck`(key[, default])	从集合中的所有元组/字典中选择项目。
`product`(other)	两个包之间的笛卡尔积。
`random_sample`(prob[, random_state])	以 `prob` 的概率从袋子中返回元素。
`reduction`(perpartition, aggregate[, ...])	使用归约运算符减少集合。
`remove`(predicate)	移除集合中符合谓词的元素。
`repartition`([npartitions, partition_size])	在新分区中重新分配袋子。
`starmap`(func, **kwargs)	使用给定包中的参数元组应用函数。
`std`([ddof])	标准差
`sum`([split_every])	求和所有元素
`take`(k[, npartitions, compute, warn])	取前 k 个元素。
`to_avro`(filename, schema[, name_function, ...])	将数据包写入一组 Avro 文件
`to_dataframe`([meta, columns, optimize_graph])	从 Dask Bag 创建 Dask Dataframe。
`to_delayed`([optimize_graph])	转换为一个 `dask.delayed` 对象列表，每个分区一个。
`to_textfiles`(path[, name_function, ...])	将 dask Bag 写入磁盘，每个分区一个文件名，每个元素一行。
`topk`(k[, key, split_every])	集合中的 K 个最大元素
`unzip`(n)	将一个元组包转换为 `n` 个元素包。
`var`([ddof])	方差
`visualize`([filename, format, optimize_graph])	使用 graphviz 渲染此对象任务图的计算。

属性

str

字符串处理函数

dask.bag.Bag.to_avro

dask.bag.Bag.accumulate