• 教程 >
  • PyTorch 中的分布式数据并行 - 视频教程
快捷方式

简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练

PyTorch 中的分布式数据并行 - 视频教程

作者:Suraj Subramanian

请观看下面的视频或在 youtube 上观看。

本视频教程系列将指导您通过 DDP 在 PyTorch 中进行分布式训练。

本系列从简单的非分布式训练作业开始,最后将训练作业部署到集群中的多台机器上。在此过程中,您还将了解 torchrun 用于容错分布式训练。

本教程假设您对 PyTorch 中的模型训练有一定了解。

运行代码

您需要多个 CUDA GPU 才能运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(教程使用具有 4 个 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在这个 github 仓库 中。克隆仓库并开始学习吧!

教程部分

  1. 简介(本页)

  2. 什么是 DDP? 轻轻地介绍 DDP 在幕后做了什么

  3. 单节点多 GPU 训练 使用单台机器上的多个 GPU 训练模型

  4. 容错分布式训练 使用 torchrun 使您的分布式训练作业更健壮

  5. 多节点训练 使用多台机器上的多个 GPU 训练模型

  6. 使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“现实世界”示例

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源