简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练
PyTorch 中的分布式数据并行 - 视频教程¶
请观看下面的视频或在 youtube 上观看。
本视频教程系列将指导您通过 DDP 在 PyTorch 中进行分布式训练。
本系列从简单的非分布式训练作业开始,最后将训练作业部署到集群中的多台机器上。在此过程中,您还将了解 torchrun 用于容错分布式训练。
本教程假设您对 PyTorch 中的模型训练有一定了解。
运行代码¶
您需要多个 CUDA GPU 才能运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(教程使用具有 4 个 GPU 的 Amazon EC2 P3 实例)。
教程代码托管在这个 github 仓库 中。克隆仓库并开始学习吧!
教程部分¶
简介(本页)
什么是 DDP? 轻轻地介绍 DDP 在幕后做了什么
单节点多 GPU 训练 使用单台机器上的多个 GPU 训练模型
容错分布式训练 使用 torchrun 使您的分布式训练作业更健壮
多节点训练 使用多台机器上的多个 GPU 训练模型
使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“现实世界”示例