dask.bag.Bag

dask.bag.Bag

class dask.bag.Bag(dsk: Graph, name: str, npartitions: int)[源代码]

Python 对象的并行集合

示例

从序列创建包

>>> import dask.bag as db
>>> b = db.from_sequence(range(5))
>>> list(b.filter(lambda x: x % 2 == 0).map(lambda x: x * 10))
[0, 20, 40]

从文件名或文件名全局字符串创建包

>>> b = db.read_text('/path/to/mydata.*.json.gz').map(json.loads)  

手动创建(专家使用)

>>> dsk = {('x', 0): (range, 5),
...        ('x', 1): (range, 5),
...        ('x', 2): (range, 5)}
>>> b = db.Bag(dsk, 'x', npartitions=3)
>>> sorted(b.map(lambda x: x * 10))
[0, 0, 0, 10, 10, 10, 20, 20, 20, 30, 30, 30, 40, 40, 40]
>>> int(b.fold(lambda x, y: x + y))
30
__init__(dsk: Graph, name: str, npartitions: int)[源代码]

方法

__init__(dsk, name, npartitions)

accumulate(binop[, initial])

对序列重复应用二元函数,累积结果。

all([split_every])

所有元素都是真值吗?

any([split_every])

这些元素中有任何一个是真值吗?

compute(**kwargs)

计算这个 dask 集合

count([split_every])

计算元素的数量。

distinct([key])

集合中的不同元素

filter(predicate)

根据谓词函数过滤集合中的元素。

flatten()

将嵌套列表连接成一个长列表。

fold(binop[, combine, initial, split_every, ...])

可并行化归约

foldby(key, binop[, initial, combine, ...])

组合的归约和分组。

frequencies([split_every, sort])

统计每个不同元素的出现次数。

groupby(grouper[, method, npartitions, ...])

按键函数分组集合

join(other, on_self[, on_other])

将集合与另一个集合连接。

map(func, *args, **kwargs)

将一个函数逐元素应用于一个或多个包。

map_partitions(func, *args, **kwargs)

将一个函数应用于一个或多个包中的每个分区。

max([split_every])

最大元素

mean()

算术平均数

min([split_every])

最小元素

persist(**kwargs)

将此 dask 集合持久化到内存中

pluck(key[, default])

从集合中的所有元组/字典中选择项目。

product(other)

两个包之间的笛卡尔积。

random_sample(prob[, random_state])

prob 的概率从袋子中返回元素。

reduction(perpartition, aggregate[, ...])

使用归约运算符减少集合。

remove(predicate)

移除集合中符合谓词的元素。

repartition([npartitions, partition_size])

在新分区中重新分配袋子。

starmap(func, **kwargs)

使用给定包中的参数元组应用函数。

std([ddof])

标准差

sum([split_every])

求和所有元素

take(k[, npartitions, compute, warn])

取前 k 个元素。

to_avro(filename, schema[, name_function, ...])

将数据包写入一组 Avro 文件

to_dataframe([meta, columns, optimize_graph])

从 Dask Bag 创建 Dask Dataframe。

to_delayed([optimize_graph])

转换为一个 dask.delayed 对象列表,每个分区一个。

to_textfiles(path[, name_function, ...])

将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。

topk(k[, key, split_every])

集合中的 K 个最大元素

unzip(n)

将一个元组包转换为 n 个元素包。

var([ddof])

方差

visualize([filename, format, optimize_graph])

使用 graphviz 渲染此对象任务图的计算。

属性

str

字符串处理函数