• 教程 >
  • PyTorch 分布式概述
快捷方式

PyTorch 分布式概述

创建于:2020 年 7 月 28 日 | 最后更新:2024 年 10 月 08 日 | 最后验证:2024 年 11 月 05 日

作者: Will Constable

注意

editgithub 上查看和编辑本教程。

这是 torch.distributed 包的概述页面。本页面的目标是将文档分类到不同的主题,并简要描述每个主题。如果您是第一次使用 PyTorch 构建分布式训练应用程序,建议您使用本文档导航到最适合您用例的技术。

简介

PyTorch Distributed 库包含并行模块集合、通信层以及用于启动和调试大型训练作业的基础设施。

并行 API

这些并行模块提供高级功能,并与现有模型组合使用

分片原语

DTensorDeviceMesh 是用于构建并行性的原语,以 N 维进程组上的分片或复制张量的形式。

  • DTensor 表示一个张量,该张量被分片和/或复制,并自动通信以根据操作需要重新分片张量。

  • DeviceMesh 将加速器设备通信器抽象成多维数组,该数组管理多维并行中集体通信的底层 ProcessGroup 实例。试用我们的 Device Mesh 食谱 以了解更多信息。

通信 API

PyTorch 分布式通信层 (C10D) 提供集体通信 API(例如,all_reduce

all_gather)和 P2P 通信 API(例如,sendisend),这些 API 在所有并行实现中都在底层使用。使用 PyTorch 编写分布式应用程序 展示了使用 c10d 通信 API 的示例。

启动器

torchrun 是一个广泛使用的启动器脚本,它在本地和远程机器上生成进程,用于运行分布式 PyTorch 程序。

应用并行性来扩展您的模型

数据并行是一种广泛采用的单程序多数据训练范例,其中模型在每个进程上复制,每个模型副本为不同的输入数据集样本计算本地梯度,梯度在每个优化器步骤之前在数据并行通信器组内平均。

当模型不适合 GPU 时,需要使用模型并行技术(或分片数据并行),并且可以将它们组合在一起以形成多维 (N-D) 并行技术。

在决定为您的模型选择哪种并行技术时,请使用这些通用指南

  1. 如果您的模型适合单个 GPU,但您想使用多个 GPU 轻松扩展训练,请使用 DistributedDataParallel (DDP)

  2. 当您的模型无法在单个 GPU 上容纳时,请使用 FullyShardedDataParallel (FSDP)

  3. 如果您在使用 FSDP 时达到扩展限制,请使用 张量并行 (TP) 和/或 流水线并行 (PP)

注意

数据并行训练也适用于 自动混合精度 (AMP)

PyTorch Distributed 开发者

如果您想为 PyTorch Distributed 做出贡献,请参阅我们的 开发者指南

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源