多节点训练¶

创建于：2022 年 9 月 27 日 | 最后更新于：2025 年 1 月 23 日 | 最后验证于：2024 年 11 月 5 日

您将学到什么

在 GitHub 上查看本教程使用的代码

前提条件

请参照下方视频或在 YouTube 上观看视频。

多节点训练涉及将训练作业部署到多台机器上。有两种方法可以实现：

在本视频中，我们将介绍从单节点多 GPU 迁移到多节点训练所需的（最少）代码修改，并以上述两种方式运行我们的训练脚本。

请注意，多节点训练的瓶颈在于节点间通信延迟。在单个节点上使用 4 个 GPU 运行训练作业将比在 4 个节点上每个节点使用 1 个 GPU 运行要快。

本地 Rank 和全局 Rank¶

在单节点设置中，我们跟踪运行训练进程的每个设备的 gpu_id。torchrun 在环境变量 LOCAL_RANK 中跟踪此值，该值唯一标识节点上的每个 GPU 进程。为了在所有节点上获得唯一标识符，torchrun 提供了另一个变量 RANK，它表示进程的全局 Rank。

警告

请勿在训练作业的关键逻辑中使用 RANK。当 torchrun 在故障或成员变更后重启进程时，无法保证进程会保持相同的 LOCAL_RANK 和 RANKS。

Torchrun 支持异构扩展，即您的每个多节点机器可以参与训练作业的 GPU 数量不同。在视频中，我在 2 台机器上部署了代码，其中一台有 4 个 GPU，另一台只使用了 2 个 GPU。