PyTorch 中的分布式数据并行 - 视频教程¶

创建于： Sep 27, 2022 | 最后更新于： Nov 15, 2024 | 最后验证于： Nov 05, 2024

请观看下方视频或在 youtube 上观看。

本系列视频教程将带你了解如何通过 DDP 在 PyTorch 中进行分布式训练。

本系列从一个简单的非分布式训练任务开始，最终将训练任务部署到集群中的多台机器上。在此过程中，你还将学习关于 torchrun 的知识，以实现容错的分布式训练。

本教程假设你对 PyTorch 中的模型训练有基本了解。

运行代码¶

你需要多个 CUDA GPU 来运行教程代码。通常，这可以在具有多个 GPU 的云实例上完成（本教程使用带有 4 个 GPU 的 Amazon EC2 P3 实例）。

教程代码托管在此 github 仓库中。克隆该仓库并跟着操作吧！