• 教程 >
  • PyTorch 中的分布式数据并行 - 视频教程
快捷方式

简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练

PyTorch 中的分布式数据并行 - 视频教程

创建于:2022 年 9 月 27 日 | 最后更新:2024 年 11 月 15 日 | 最后验证:2024 年 11 月 05 日

作者:Suraj Subramanian

观看以下视频或在 youtube 上观看。

此视频教程系列将引导您了解通过 DDP 在 PyTorch 中进行分布式训练。

该系列从一个简单的非分布式训练作业开始,到在集群中的多台机器上部署训练作业结束。在此过程中,您还将了解用于容错分布式训练的 torchrun

本教程假定您基本熟悉 PyTorch 中的模型训练。

运行代码

您将需要多个 CUDA GPU 才能运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(教程使用具有 4 个 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在此 github repo 中。克隆存储库并继续学习!

教程章节

  1. 简介(本页)

  2. 什么是 DDP? 轻轻地介绍 DDP 在幕后所做的事情

  3. 单节点多 GPU 训练 在单台机器上使用多个 GPU 训练模型

  4. 容错分布式训练 使用 torchrun 使您的分布式训练作业更加稳健

  5. 多节点训练 在多台机器上使用多个 GPU 训练模型

  6. 使用 DDP 训练 GPT 模型 训练 minGPT 模型的“真实世界”示例

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源