介绍 || 什么是DDP || 单节点多GPU训练 || 容错 || 多节点训练 || minGPT训练
PyTorch中的分布式数据并行 - 视频教程¶
创建于:2022年9月27日 | 最后更新:2024年11月15日 | 最后验证:2024年11月5日
跟随下面的视频或在youtube上观看。
本系列视频教程将引导您通过DDP在PyTorch中进行分布式训练。
该系列从简单的非分布式训练任务开始,以在集群中的多台机器上部署训练任务结束。在此过程中,您还将学习关于torchrun用于容错分布式训练的内容。
本教程假设您对PyTorch中的模型训练有基本的了解。
运行代码¶
您将需要多个CUDA GPU来运行教程代码。通常,这可以在具有多个GPU的云实例上完成(教程使用的是具有4个GPU的Amazon EC2 P3实例)。
教程代码托管在这个 github repo。 克隆仓库并跟随教程!
教程部分¶
介绍(本页)
What is DDP? 温和地介绍DDP在幕后做了什么
单节点多GPU训练 在单台机器上使用多个GPU训练模型
Fault-tolerant distributed training 使用torchrun使您的分布式训练任务更加健壮
Multi-Node training 在多台机器上使用多个GPU训练模型
Training a GPT model with DDP “真实世界” 使用DDP训练minGPT 模型的示例