简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错 || 多节点训练 || minGPT 训练
使用 DDP 训练“真实世界”模型¶
按照以下视频或 youtube 上的视频进行操作。
在本视频中,我们将回顾在多节点 DDP 中训练 GPT 模型的过程。我们首先克隆 minGPT 仓库 并重构 Trainer 以类似于本系列中使用的结构。观看视频以了解有关这些更改的详细信息。
我们使用 hydra 集中管理训练运行的所有配置。代码重构完成后,我们首先在具有 4 个 GPU 的单节点上运行它,然后在 slurm 集群上运行它。
用于训练的文件¶
trainer.py 包含 Trainer 类,该类在提供的模型和数据集上运行分布式训练迭代。
model.py 定义了模型架构。
char_dataset.py 包含用于字符级数据集的
Dataset
类。gpt2_train_cfg.yaml 包含数据、模型、优化器和训练运行的配置。
main.py 是训练作业的入口点。它设置 DDP 进程组,读取所有配置并运行训练作业。
从云端保存和加载¶
在上面的视频中,我们将训练快照直接保存到云端。这使我们能够灵活地从任何能够访问云存储桶的节点继续训练。