dask.bag.Bag
dask.bag.Bag¶
- class dask.bag.Bag(dsk: Graph, name: str, npartitions: int)[源代码]¶
Python 对象的并行集合
示例
从序列创建包
>>> import dask.bag as db >>> b = db.from_sequence(range(5)) >>> list(b.filter(lambda x: x % 2 == 0).map(lambda x: x * 10)) [0, 20, 40]
从文件名或文件名全局字符串创建包
>>> b = db.read_text('/path/to/mydata.*.json.gz').map(json.loads)
手动创建(专家使用)
>>> dsk = {('x', 0): (range, 5), ... ('x', 1): (range, 5), ... ('x', 2): (range, 5)} >>> b = db.Bag(dsk, 'x', npartitions=3)
>>> sorted(b.map(lambda x: x * 10)) [0, 0, 0, 10, 10, 10, 20, 20, 20, 30, 30, 30, 40, 40, 40]
>>> int(b.fold(lambda x, y: x + y)) 30
方法
__init__(dsk, name, npartitions)accumulate(binop[, initial])对序列重复应用二元函数,累积结果。
all([split_every])所有元素都是真值吗?
any([split_every])这些元素中有任何一个是真值吗?
compute(**kwargs)计算这个 dask 集合
count([split_every])计算元素的数量。
distinct([key])集合中的不同元素
filter(predicate)根据谓词函数过滤集合中的元素。
flatten()将嵌套列表连接成一个长列表。
fold(binop[, combine, initial, split_every, ...])可并行化归约
foldby(key, binop[, initial, combine, ...])组合的归约和分组。
frequencies([split_every, sort])统计每个不同元素的出现次数。
groupby(grouper[, method, npartitions, ...])按键函数分组集合
join(other, on_self[, on_other])将集合与另一个集合连接。
map(func, *args, **kwargs)将一个函数逐元素应用于一个或多个包。
map_partitions(func, *args, **kwargs)将一个函数应用于一个或多个包中的每个分区。
max([split_every])最大元素
mean()算术平均数
min([split_every])最小元素
persist(**kwargs)将此 dask 集合持久化到内存中
pluck(key[, default])从集合中的所有元组/字典中选择项目。
product(other)两个包之间的笛卡尔积。
random_sample(prob[, random_state])以
prob的概率从袋子中返回元素。reduction(perpartition, aggregate[, ...])使用归约运算符减少集合。
remove(predicate)移除集合中符合谓词的元素。
repartition([npartitions, partition_size])在新分区中重新分配袋子。
starmap(func, **kwargs)使用给定包中的参数元组应用函数。
std([ddof])标准差
sum([split_every])求和所有元素
take(k[, npartitions, compute, warn])取前 k 个元素。
to_avro(filename, schema[, name_function, ...])将数据包写入一组 Avro 文件
to_dataframe([meta, columns, optimize_graph])从 Dask Bag 创建 Dask Dataframe。
to_delayed([optimize_graph])转换为一个
dask.delayed对象列表,每个分区一个。to_textfiles(path[, name_function, ...])将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。
topk(k[, key, split_every])集合中的 K 个最大元素
unzip(n)将一个元组包转换为
n个元素包。var([ddof])方差
visualize([filename, format, optimize_graph])使用 graphviz 渲染此对象任务图的计算。
属性
str字符串处理函数