使用PyTorch编写分布式应用程序¶

创建日期：2017年10月6日 | 最后更新：2024年12月10日 | 最后验证：2024年11月5日

注意

在github上查看和编辑本教程。

先决条件：

PyTorch 分布式概述

在这个简短的教程中，我们将介绍PyTorch的分布式包。我们将了解如何设置分布式环境，使用不同的通信策略，并深入了解该包的一些内部机制。

设置¶

PyTorch中包含的分布式包（即torch.distributed）使研究人员和从业者能够轻松地在进程和机器集群之间并行化他们的计算。为此，它利用消息传递语义，允许每个进程将数据传递给任何其他进程。与多进程（torch.multiprocessing）包不同，进程可以使用不同的通信后端，并且不限于在同一台机器上执行。

为了开始，我们需要能够同时运行多个进程。如果您有访问计算集群的权限，您应该与本地系统管理员确认或使用您喜欢的协调工具（例如，pdsh、clustershell或slurm）。在本教程中，我们将使用单台机器，并使用以下模板生成多个进程。

"""run.py:"""
#!/usr/bin/env python
import os
import torch
import torch.distributed as dist
import torch.multiprocessing as mp

def run(rank, size):
    """ Distributed function to be implemented later. """
    pass

def init_process(rank, size, fn, backend='gloo'):
    """ Initialize the distributed environment. """
    os.environ['MASTER_ADDR'] = '127.0.0.1'
    os.environ['MASTER_PORT'] = '29500'
    dist.init_process_group(backend, rank=rank, world_size=size)
    fn(rank, size)


if __name__ == "__main__":
    world_size = 2
    processes = []
    mp.set_start_method("spawn")
    for rank in range(world_size):
        p = mp.Process(target=init_process, args=(rank, world_size, run))
        p.start()
        processes.append(p)

    for p in processes:
        p.join()

上述脚本生成两个进程，每个进程将设置分布式环境，初始化进程组（dist.init_process_group），并最终执行给定的run函数。

让我们来看一下init_process函数。它确保每个进程都能通过主进程进行协调，使用相同的IP地址和端口。请注意，我们使用了gloo后端，但其他后端也是可用的。（参见第5.1节）我们将在本教程的最后讨论dist.init_process_group中发生的魔法，但它本质上允许进程通过共享它们的位置来相互通信。

点对点通信¶

发送和接收¶

从一个进程到另一个进程的数据传输称为点对点通信。这些是通过send和recv函数或它们的即时对应函数isend和irecv实现的。

"""Blocking point-to-point communication."""

def run(rank, size):
    tensor = torch.zeros(1)
    if rank == 0:
        tensor += 1
        # Send the tensor to process 1
        dist.send(tensor=tensor, dst=1)
    else:
        # Receive tensor from process 0
        dist.recv(tensor=tensor, src=0)
    print('Rank ', rank, ' has data ', tensor[0])

在上面的例子中，两个进程都从一个零张量开始，然后进程0递增张量并将其发送到进程1，以便它们最终都得到1.0。请注意，进程1需要分配内存以存储它将接收的数据。

还要注意的是，send/recv 是阻塞的：两个进程都会阻塞，直到通信完成。另一方面，立即操作是非阻塞的；脚本继续执行，方法返回一个Work对象，我们可以选择在其上wait()。

"""Non-blocking point-to-point communication."""

def run(rank, size):
    tensor = torch.zeros(1)
    req = None
    if rank == 0:
        tensor += 1
        # Send the tensor to process 1
        req = dist.isend(tensor=tensor, dst=1)
        print('Rank 0 started sending')
    else:
        # Receive tensor from process 0
        req = dist.irecv(tensor=tensor, src=0)
        print('Rank 1 started receiving')
    req.wait()
    print('Rank ', rank, ' has data ', tensor[0])

在使用立即数时，我们必须小心如何使用发送和接收的张量。由于我们不知道数据何时会传递到其他进程，在req.wait()完成之前，我们不应修改发送的张量，也不应访问接收的张量。换句话说，

在dist.isend()之后写入tensor将导致未定义的行为。
在dist.irecv()之后从tensor读取将导致未定义的行为。

然而，在req.wait()执行后，我们可以确保通信已经发生，并且存储在tensor[0]中的值为1.0。

点对点通信在我们希望对进程的通信进行更精细控制时非常有用。它们可以用来实现复杂的算法，例如百度的DeepSpeech或Facebook的大规模实验中使用的算法。(参见第4.1节)

集体通信¶

散点图¶	收集¶
Reduce¶	All-Reduce¶
广播¶	全收集¶

与点对点通信不同，集合通信允许在组中的所有进程之间进行通信模式。组是我们所有进程的一个子集。要创建一个组，我们可以将一组排名传递给dist.new_group(group)。默认情况下，集合操作在所有进程上执行，也称为世界。例如，为了获取所有进程上所有张量的总和，我们可以使用dist.all_reduce(tensor, op, group)集合操作。

""" All-Reduce example."""
def run(rank, size):
    """ Simple collective communication. """
    group = dist.new_group([0, 1])
    tensor = torch.ones(1)
    dist.all_reduce(tensor, op=dist.ReduceOp.SUM, group=group)
    print('Rank ', rank, ' has data ', tensor[0])

由于我们希望得到组中所有张量的总和，我们使用 dist.ReduceOp.SUM 作为归约操作符。一般来说，任何可交换的数学运算都可以用作操作符。开箱即用，PyTorch 提供了许多这样的操作符，所有操作都在元素级别进行：

dist.ReduceOp.SUM,
dist.ReduceOp.PRODUCT,
dist.ReduceOp.MAX,
dist.ReduceOp.MIN,
dist.ReduceOp.BAND,
dist.ReduceOp.BOR,
dist.ReduceOp.BXOR,
dist.ReduceOp.PREMUL_SUM.

支持的运算符的完整列表在这里。

除了dist.all_reduce(tensor, op, group)之外，目前在PyTorch中还实现了许多额外的集合操作。以下是一些支持的集合操作。

dist.broadcast(tensor, src, group): 将 tensor 从 src 复制到所有其他进程。
dist.reduce(tensor, dst, op, group): 对每个tensor应用op并将结果存储在dst中。
dist.all_reduce(tensor, op, group): 与reduce相同，但结果存储在所有进程中。
dist.scatter(tensor, scatter_list, src, group): 将 \(i^{\text{th}}\) 张量 scatter_list[i] 复制到 \(i^{\text{th}}\) 进程中。
dist.gather(tensor, gather_list, dst, group): 从dst中的所有进程复制tensor。
dist.all_gather(tensor_list, tensor, group): 将tensor从所有进程复制到tensor_list，在所有进程上。
dist.barrier(group): 阻塞group中的所有进程，直到每个进程都进入此函数。
dist.all_to_all(output_tensor_list, input_tensor_list, group): 将输入张量列表分散到组中的所有进程，并返回输出列表中收集的张量列表。

支持的完整集合列表可以通过查看PyTorch Distributed的最新文档找到 (link)。

分布式训练¶

注意： 您可以在这个GitHub仓库中找到本节的示例脚本。

既然我们已经理解了分布式模块的工作原理，让我们用它来编写一些有用的东西。我们的目标是复制DistributedDataParallel的功能。当然，这将是一个教学示例，在实际情况下，您应该使用上面链接的官方、经过充分测试和优化的版本。

简单地说，我们想要实现一个分布式版本的随机梯度下降。我们的脚本将让所有进程在它们的数据批次上计算模型的梯度，然后平均它们的梯度。为了确保在改变进程数量时获得相似的收敛结果，我们首先需要对数据集进行分区。（你也可以使用torch.utils.data.random_split，而不是下面的代码片段。）

""" Dataset partitioning helper """
class Partition(object):

    def __init__(self, data, index):
        self.data = data
        self.index = index

    def __len__(self):
        return len(self.index)

    def __getitem__(self, index):
        data_idx = self.index[index]
        return self.data[data_idx]


class DataPartitioner(object):

    def __init__(self, data, sizes=[0.7, 0.2, 0.1], seed=1234):
        self.data = data
        self.partitions = []
        rng = Random()  # from random import Random
        rng.seed(seed)
        data_len = len(data)
        indexes = [x for x in range(0, data_len)]
        rng.shuffle(indexes)

        for frac in sizes:
            part_len = int(frac * data_len)
            self.partitions.append(indexes[0:part_len])
            indexes = indexes[part_len:]

    def use(self, partition):
        return Partition(self.data, self.partitions[partition])

通过上述代码片段，我们现在可以使用以下几行简单地分区任何数据集：

""" Partitioning MNIST """
def partition_dataset():
    dataset = datasets.MNIST('./data', train=True, download=True,
                             transform=transforms.Compose([
                                 transforms.ToTensor(),
                                 transforms.Normalize((0.1307,), (0.3081,))
                             ]))
    size = dist.get_world_size()
    bsz = 128 // size
    partition_sizes = [1.0 / size for _ in range(size)]
    partition = DataPartitioner(dataset, partition_sizes)
    partition = partition.use(dist.get_rank())
    train_set = torch.utils.data.DataLoader(partition,
                                         batch_size=bsz,
                                         shuffle=True)
    return train_set, bsz

假设我们有2个副本，那么每个进程将有一个train_set，包含60000 / 2 = 30000个样本。我们还将批量大小除以副本数量，以保持总体批量大小为128。

我们现在可以编写我们通常的前向-后向-优化训练代码，并添加一个函数调用来平均我们模型的梯度。（以下内容主要受到官方PyTorch MNIST示例的启发。）

""" Distributed Synchronous SGD Example """
def run(rank, size):
    torch.manual_seed(1234)
    train_set, bsz = partition_dataset()
    model = Net()
    optimizer = optim.SGD(model.parameters(),
                          lr=0.01, momentum=0.5)

    num_batches = ceil(len(train_set.dataset) / float(bsz))
    for epoch in range(10):
        epoch_loss = 0.0
        for data, target in train_set:
            optimizer.zero_grad()
            output = model(data)
            loss = F.nll_loss(output, target)
            epoch_loss += loss.item()
            loss.backward()
            average_gradients(model)
            optimizer.step()
        print('Rank ', dist.get_rank(), ', epoch ',
              epoch, ': ', epoch_loss / num_batches)

还需要实现average_gradients(model)函数，该函数简单地接收一个模型并对其在整个世界中的梯度进行平均。

""" Gradient averaging. """
def average_gradients(model):
    size = float(dist.get_world_size())
    for param in model.parameters():
        dist.all_reduce(param.grad.data, op=dist.ReduceOp.SUM)
        param.grad.data /= size

瞧！我们成功实现了分布式同步SGD，并可以在大型计算机集群上训练任何模型。

注意： 虽然最后一句话在技术上是正确的，但要实现生产级别的同步SGD还需要很多技巧。再次强调，使用经过测试和优化的内容。

我们自己的环状全归约¶

作为一个额外的挑战，想象一下我们想要实现DeepSpeech的高效环形全归约。使用点对点集合体来实现这一点相当容易。

""" Implementation of a ring-reduce with addition. """
def allreduce(send, recv):
   rank = dist.get_rank()
   size = dist.get_world_size()
   send_buff = send.clone()
   recv_buff = send.clone()
   accum = send.clone()

   left = ((rank - 1) + size) % size
   right = (rank + 1) % size

   for i in range(size - 1):
       if i % 2 == 0:
           # Send send_buff
           send_req = dist.isend(send_buff, right)
           dist.recv(recv_buff, left)
           accum[:] += recv_buff[:]
       else:
           # Send recv_buff
           send_req = dist.isend(recv_buff, right)
           dist.recv(send_buff, left)
           accum[:] += send_buff[:]
       send_req.wait()
   recv[:] = accum[:]

在上述脚本中，allreduce(send, recv) 函数的签名与 PyTorch 中的略有不同。它接受一个 recv 张量，并将所有 send 张量的和存储在其中。作为留给读者的练习，我们的版本与 DeepSpeech 中的版本还有一个区别：他们的实现将梯度张量分成块，以最优地利用通信带宽。（提示：torch.chunk）

高级主题¶

我们现在准备探索torch.distributed的一些更高级功能。由于内容较多，本节分为两个小节：

通信后端：在这里我们学习如何使用MPI和Gloo进行GPU-GPU通信。
初始化方法：在这里我们了解如何在dist.init_process_group()中最好地设置初始协调阶段。

通信后端¶

torch.distributed 最优雅的方面之一是其能够抽象并在不同后端之上构建。如前所述，PyTorch 中实现了多个后端。一些最流行的后端包括 Gloo、NCCL 和 MPI。它们各自有不同的规格和权衡，取决于所需的用例。支持功能的比较表可以在这里找到。

Gloo 后端

到目前为止，我们已经广泛使用了Gloo后端。作为一个开发平台，它非常方便，因为它包含在预编译的PyTorch二进制文件中，并且适用于Linux（自0.2版本起）和macOS（自1.3版本起）。它支持CPU上的所有点对点和集体操作，以及GPU上的所有集体操作。CUDA张量的集体操作实现不如NCCL后端提供的优化。

正如你肯定已经注意到的，如果你将model放在GPU上，我们的分布式SGD示例将无法工作。为了使用多个GPU，让我们也进行以下修改：

使用 device = torch.device("cuda:{}".format(rank))
model = Net() \(\rightarrow\) model = Net().to(device)
使用 data, target = data.to(device), target.to(device)

经过上述修改，我们的模型现在正在两个GPU上进行训练，您可以使用watch nvidia-smi来监控它们的利用率。

MPI 后端

消息传递接口（MPI）是高性能计算领域的一个标准化工具。它允许进行点对点和集体通信，并且是torch.distributed API的主要灵感来源。存在多种MPI实现（例如Open-MPI、MVAPICH2、Intel MPI），每种实现都针对不同的目的进行了优化。使用MPI后端的优势在于MPI在大型计算机集群上的广泛可用性和高度优化。一些最近的实现还能够利用CUDA IPC和GPU Direct技术，以避免通过CPU进行内存复制。

不幸的是，PyTorch的二进制文件不能包含MPI实现，我们必须手动重新编译它。幸运的是，这个过程相当简单，因为在编译时，PyTorch会自动寻找可用的MPI实现。以下步骤通过从源代码安装PyTorch来安装MPI后端。

创建并激活您的Anaconda环境，按照指南安装所有先决条件，但不要运行python setup.py install。
选择并安装您喜欢的MPI实现。请注意，启用支持CUDA的MPI可能需要一些额外的步骤。在我们的案例中，我们将坚持使用不支持 GPU的Open-MPI： conda install -c conda-forge openmpi
现在，转到你克隆的PyTorch仓库并执行 python setup.py install。

为了测试我们新安装的后端，需要进行一些修改。

将if __name__ == '__main__':下的内容替换为 init_process(0, 0, run, backend='mpi')。
运行 mpirun -n 4 python myscript.py。

这些更改的原因是MPI需要在生成进程之前创建自己的环境。MPI还将生成自己的进程并执行初始化方法中描述的握手，使得init_process_group的rank和size参数变得多余。这实际上非常强大，因为你可以向mpirun传递额外的参数，以便为每个进程定制计算资源。（例如每个进程的核心数量、手动将机器分配给特定的rank，以及更多内容）这样做，你应该会得到与其他通信后端相同的熟悉输出。

NCCL 后端

NCCL 后端提供了针对 CUDA 张量的集体操作优化实现。如果您仅使用 CUDA 张量进行集体操作，请考虑使用此后端以获得最佳性能。NCCL 后端已包含在支持 CUDA 的预构建二进制文件中。

初始化方法¶

为了总结本教程，让我们检查一下我们最初调用的函数： dist.init_process_group(backend, init_method)。具体来说，我们将讨论负责每个进程之间初步协调步骤的各种初始化方法。这些方法使您能够定义如何完成这种协调。

初始化方法的选择取决于您的硬件设置，其中一种方法可能比其他方法更合适。除了以下部分外，请参阅官方文档以获取更多信息。

环境变量

在本教程中，我们一直使用环境变量初始化方法。通过在所有机器上设置以下四个环境变量，所有进程将能够正确连接到主节点，获取有关其他进程的信息，并最终与它们进行握手。

MASTER_PORT: 主机上用于托管排名为0的进程的空闲端口。
MASTER_ADDR: 将托管排名为0的进程的机器的IP地址。
WORLD_SIZE: 进程的总数，以便主进程知道需要等待多少个工作进程。
RANK: 每个进程的排名，以便它们知道是主进程还是工作进程。

共享文件系统

共享文件系统要求所有进程都能访问共享文件系统，并通过共享文件进行协调。这意味着每个进程都将打开文件，写入其信息，并等待所有进程都这样做。之后，所有所需信息将对所有进程立即可用。为了避免竞争条件，文件系统必须支持通过fcntl进行锁定。

dist.init_process_group(
    init_method='file:///mnt/nfs/sharedfile',
    rank=args.rank,
    world_size=4)

TCP

通过TCP初始化可以通过提供排名为0的进程的IP地址和一个可访问的端口号来实现。在这里，所有的工作者将能够连接到排名为0的进程，并交换如何相互访问的信息。

dist.init_process_group(
    init_method='tcp://10.1.1.20:23456',
    rank=args.rank,
    world_size=4)

致谢

我要感谢PyTorch开发者在实现、文档和测试方面做得如此出色。当代码不清楚时，我总是可以依靠文档或测试来找到答案。特别是，我要感谢Soumith Chintala、Adam Paszke和Natalia Gimelshein提供了深刻的评论并回答了早期草稿中的问题。