多节点训练¶

创建日期：2022年9月27日 | 最后更新：2024年7月10日 | 最后验证：2024年11月5日

What you will learn

查看本教程中使用的代码在 GitHub 上

Prerequisites

跟随下面的视频或在youtube上观看。

多节点训练涉及在多台机器上部署训练任务。有两种方法可以实现这一点：

在本视频中，我们将介绍从单节点多GPU转移到多节点训练所需的（最小）代码更改，并以上述两种方式运行我们的训练脚本。

请注意，多节点训练受限于节点间通信延迟。在单个节点上使用4个GPU运行训练任务将比在4个节点上每个节点使用1个GPU运行更快。

本地和全局排名¶

在单节点设置中，我们正在跟踪运行我们训练过程的每个设备的gpu_id。torchrun在环境变量LOCAL_RANK中跟踪这个值，它唯一地标识节点上的每个GPU进程。对于所有节点的唯一标识符，torchrun提供了另一个变量RANK，它指的是进程的全局排名。

警告

不要在你的训练任务中使用RANK作为关键逻辑。当torchrun在失败或成员变更后重新启动进程时，不能保证进程会保持相同的LOCAL_RANK和RANKS。

Torchrun 支持异构扩展，即您的多节点机器中的每一台都可以有不同数量的 GPU 参与训练任务。在视频中，我将代码部署在 2 台机器上，其中一台机器有 4 个 GPU，另一台只使用了 2 个 GPU。