介绍 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练
PyTorch 中的分布式数据并行 - 视频教程¶
创建于: Sep 27, 2022 | 最后更新于: Nov 15, 2024 | 最后验证于: Nov 05, 2024
请观看下方视频或在 youtube 上观看。
本系列视频教程将带你了解如何通过 DDP 在 PyTorch 中进行分布式训练。
本系列从一个简单的非分布式训练任务开始,最终将训练任务部署到集群中的多台机器上。在此过程中,你还将学习关于 torchrun 的知识,以实现容错的分布式训练。
本教程假设你对 PyTorch 中的模型训练有基本了解。
运行代码¶
你需要多个 CUDA GPU 来运行教程代码。通常,这可以在具有多个 GPU 的云实例上完成(本教程使用带有 4 个 GPU 的 Amazon EC2 P3 实例)。
教程代码托管在此 github 仓库 中。克隆该仓库并跟着操作吧!
教程章节¶
介绍(本页)
什么是 DDP? 温和地介绍 DDP 的底层工作原理
单节点多 GPU 训练 在单台机器上使用多个 GPU 训练模型
容错分布式训练 使用 torchrun 使你的分布式训练任务具有鲁棒性
多节点训练 在多台机器上使用多个 GPU 训练模型
使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“真实世界”示例