分布式#

进程间通信#

init_process_group(n_devices, rank, *[, ...])

启动 cupyx.distributed 并获取一个通信器。

NCCLBackend(n_devices, rank[, host, port, ...])

使用 NVIDIA 的 NCCL 执行通信的接口。

ndarray 分布在设备上#

distributed_array(array, index_map[, mode])

从给定的数据创建一个分布式数组。

DistributedArray(self, shape, dtype, chunks_map)

跨多个CUDA设备的多维数组。

make_2d_index_map(i_partitions, ...)

为具有指定块的二维矩阵创建一个 index_map

matmul(a, b[, out])

分布式数组之间的矩阵乘法。