简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练
PyTorch 中的分布式数据并行 - 视频教程¶
创建于:2022 年 9 月 27 日 | 最后更新:2024 年 11 月 15 日 | 最后验证:2024 年 11 月 05 日
观看以下视频或在 youtube 上观看。
此视频教程系列将引导您了解通过 DDP 在 PyTorch 中进行分布式训练。
该系列从一个简单的非分布式训练作业开始,到在集群中的多台机器上部署训练作业结束。在此过程中,您还将了解用于容错分布式训练的 torchrun。
本教程假定您基本熟悉 PyTorch 中的模型训练。
运行代码¶
您将需要多个 CUDA GPU 才能运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(教程使用具有 4 个 GPU 的 Amazon EC2 P3 实例)。
教程代码托管在此 github repo 中。克隆存储库并继续学习!
教程章节¶
简介(本页)
什么是 DDP? 轻轻地介绍 DDP 在幕后所做的事情
单节点多 GPU 训练 在单台机器上使用多个 GPU 训练模型
容错分布式训练 使用 torchrun 使您的分布式训练作业更加稳健
多节点训练 在多台机器上使用多个 GPU 训练模型
使用 DDP 训练 GPT 模型 训练 minGPT 模型的“真实世界”示例