• 教程 >
  • 分布式和并行训练教程
快捷方式

分布式和并行训练教程

分布式训练是一种模型训练范式,它涉及将训练工作负载分布在多个工作节点上,从而显著提高训练速度和模型精度。虽然分布式训练可用于任何类型的 ML 模型训练,但它在大型模型和计算量大的任务(如深度学习)中最为有利。

在 PyTorch 中,您可以使用几种方法执行分布式训练,每种方法在某些用例中都有其优势

详细了解这些选项,请参阅 分布式概述

学习 DDP

DDP 入门视频教程

一个关于如何开始使用 DistributedDataParallel 并进入更复杂主题的逐步视频系列

https://pytorch.ac.cn/tutorials/beginner/ddp_series_intro.html?utm_source=distr_landing&utm_medium=ddp_series_intro
分布式数据并行入门

本教程简要介绍了 PyTorch 分布式数据并行。

https://pytorch.ac.cn/tutorials/intermediate/ddp_tutorial.html?utm_source=distr_landing&utm_medium=intermediate_ddp_tutorial
使用 Join 上下文管理器进行不均匀输入的分布式训练

本教程介绍了 Join 上下文管理器,并展示了它在分布式数据并行中的使用。

https://pytorch.ac.cn/tutorials/advanced/generic_join.html?utm_source=distr_landing&utm_medium=generic_join

学习 FSDP

FSDP 入门

本教程演示了如何在 MNIST 数据集上使用 FSDP 进行分布式训练。

https://pytorch.ac.cn/tutorials/intermediate/FSDP_tutorial.html?utm_source=distr_landing&utm_medium=FSDP_getting_started
FSDP 高级

在本教程中,您将学习如何使用 FSDP 对 HuggingFace (HF) T5 模型进行微调以进行文本摘要。

https://pytorch.ac.cn/tutorials/intermediate/FSDP_adavnced_tutorial.html?utm_source=distr_landing&utm_medium=FSDP_advanced

学习张量并行 (TP)

使用张量并行 (TP) 训练大型 Transformer 模型

本教程演示了如何使用张量并行和完全分片数据并行,跨数百到数千个 GPU 训练大型 Transformer 类模型。

https://pytorch.ac.cn/tutorials/intermediate/TP_tutorial.html

学习 DeviceMesh

DeviceMesh 入门

在本教程中,您将了解 DeviceMesh 以及它如何帮助进行分布式训练。

https://pytorch.ac.cn/tutorials/recipes/distributed_device_mesh.html?highlight=devicemesh

学习 RPC

分布式 RPC 框架入门

本教程演示了如何开始使用基于 RPC 的分布式训练。

https://pytorch.ac.cn/tutorials/intermediate/rpc_tutorial.html?utm_source=distr_landing&utm_medium=rpc_getting_started
使用分布式 RPC 框架实现参数服务器

本教程将带您逐步完成使用 PyTorch 的分布式 RPC 框架实现参数服务器的简单示例。

https://pytorch.ac.cn/tutorials/intermediate/rpc_param_server_tutorial.html?utm_source=distr_landing&utm_medium=rpc_param_server_tutorial
使用异步执行实现批处理 RPC 处理

在本教程中,您将使用 @rpc.functions.async_execution 装饰器构建批处理 RPC 应用程序。

https://pytorch.ac.cn/tutorials/intermediate/rpc_async_execution.html?utm_source=distr_landing&utm_medium=rpc_async_execution
将分布式数据并行与分布式 RPC 框架结合使用

在本教程中,您将学习如何将分布式数据并行与分布式模型并行相结合。

https://pytorch.ac.cn/tutorials/advanced/rpc_ddp_tutorial.html?utm_source=distr_landing&utm_medium=rpc_plus_ddp

自定义扩展

使用 Cpp 扩展自定义进程组后端

在本教程中,您将学习如何实现自定义 ProcessGroup 后端,并使用 cpp 扩展将其插入 PyTorch 分布式包。

https://pytorch.ac.cn/tutorials/intermediate/process_group_cpp_extension_tutorial.html?utm_source=distr_landing&utm_medium=custom_extensions_cpp

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源