快捷方式

简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练

多节点训练

创建于:2022 年 9 月 27 日 | 最后更新:2025 年 1 月 23 日 | 最后验证:2024 年 11 月 05 日

作者:Suraj Subramanian

你将学到什么
  • 使用 torchrun 启动多节点训练作业

  • 从单节点训练迁移到多节点训练时的代码更改(以及需要记住的事项)。

GitHub 上查看本教程中使用的代码

先决条件
  • 熟悉 多 GPU 训练torchrun

  • 2 台或更多 TCP 可达的 GPU 机器(本教程使用 AWS p3.2xlarge 实例)

  • 所有机器上都安装了带有 CUDA 的 PyTorch

观看下面的视频或在 youtube 上观看。

多节点训练涉及跨多台机器部署训练作业。有两种方法可以做到这一点

  • 在每台机器上运行具有相同 rendezvous 参数的 torchrun 命令,或者

  • 使用工作负载管理器(如 SLURM)将其部署到计算集群上

在本视频中,我们将介绍从单节点多 GPU 迁移到多节点训练所需的(最少)代码更改,并以上述两种方式运行我们的训练脚本。

请注意,多节点训练受限于节点间通信延迟。在单节点上的 4 个 GPU 上运行训练作业将比在每个节点具有 1 个 GPU 的 4 个节点上运行更快。

本地和全局排名

在单节点设置中,我们跟踪了运行我们训练进程的每个设备的 gpu_idtorchrun 在环境变量 LOCAL_RANK 中跟踪此值,该变量唯一标识节点上的每个 GPU 进程。为了在所有节点上获得唯一的标识符,torchrun 提供了另一个变量 RANK,它指的是进程的全局排名。

警告

不要在你的训练作业的关键逻辑中使用 RANK。当 torchrun 在失败或成员资格更改后重启进程时,不保证进程将保持相同的 LOCAL_RANKRANKS

异构扩展

Torchrun 支持异构扩展,即你的多节点机器中的每台机器可以有不同数量的 GPU 参与训练作业。在视频中,我将代码部署在 2 台机器上,其中一台机器有 4 个 GPU,另一台仅使用 2 个 GPU。

故障排除

  • 确保你的节点能够通过 TCP 相互通信。

  • 将环境变量 NCCL_DEBUG 设置为 INFO(使用 export NCCL_DEBUG=INFO)以打印详细日志,这可以帮助诊断问题。

  • 有时你可能需要显式设置分布式后端的网络接口(export NCCL_SOCKET_IFNAME=eth0)。在此处阅读更多关于此信息 此处

进一步阅读


评价本教程

© 版权所有 2024, PyTorch。

使用 Sphinx 构建,主题由 主题 提供,由 Read the Docs 提供。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源