• 文档 >
  • 通用 Join 上下文管理器
快捷方式

通用 Join 上下文管理器

通用 join 上下文管理器方便了在不均匀输入上的分布式训练。此页面概述了相关类的 API:JoinJoinableJoinHook。有关教程,请参阅 使用 Join 上下文管理器进行不均匀输入的分布式训练

class torch.distributed.algorithms.Join(joinables, enable=True, throw_on_early_termination=False, **kwargs)[source][source]

此类定义了通用 join 上下文管理器,它允许在进程加入后调用自定义钩子。

这些钩子应遮蔽未加入进程的集合通信,以防止挂起和出错,并确保算法的正确性。有关钩子定义的详细信息,请参阅 JoinHook

警告

上下文管理器要求每个参与的 Joinable 在其自身的每次迭代集合通信之前调用方法 notify_join_context(),以确保正确性。

警告

上下文管理器要求 JoinHook 对象中的所有 process_group 属性都相同。如果存在多个 JoinHook 对象,则使用第一个对象的 device。进程组和设备信息用于检查未加入的进程,以及在启用 throw_on_early_termination 时通知进程抛出异常,这两者都使用 all-reduce。

参数
  • joinables (List[Joinable]) – 参与的 Joinable 的列表;它们的钩子按给定的顺序迭代。

  • enable (bool) – 启用不均匀输入检测的标志;设置为 False 将禁用上下文管理器的功能,仅当用户知道输入不会不均匀时才应设置(默认值:True)。

  • throw_on_early_termination (bool) – 控制在检测到不均匀输入时是否抛出异常的标志(默认值:False)。

示例

>>> import os
>>> import torch
>>> import torch.distributed as dist
>>> import torch.multiprocessing as mp
>>> import torch.nn.parallel.DistributedDataParallel as DDP
>>> import torch.distributed.optim.ZeroRedundancyOptimizer as ZeRO
>>> from torch.distributed.algorithms.join import Join
>>>
>>> # On each spawned worker
>>> def worker(rank):
>>>     dist.init_process_group("nccl", rank=rank, world_size=2)
>>>     model = DDP(torch.nn.Linear(1, 1).to(rank), device_ids=[rank])
>>>     optim = ZeRO(model.parameters(), torch.optim.Adam, lr=0.01)
>>>     # Rank 1 gets one more input than rank 0
>>>     inputs = [torch.tensor([1.]).to(rank) for _ in range(10 + rank)]
>>>     with Join([model, optim]):
>>>         for input in inputs:
>>>             loss = model(input).sum()
>>>             loss.backward()
>>>             optim.step()
>>>     # All ranks reach here without hanging/erroring
static notify_join_context(joinable)[source][source]

通知 join 上下文管理器,调用进程尚未加入。

然后,如果 throw_on_early_termination=True,则检查是否已检测到不均匀输入(即,是否有一个进程已经加入),如果是,则抛出异常。

此方法应从 Joinable 对象在其每次迭代集合通信之前调用。例如,这应在 DistributedDataParallel 的前向传递开始时调用。

只有传入上下文管理器的第一个 Joinable 对象在此方法中执行集合通信,对于其他对象,此方法是空洞的。

参数

joinable (Joinable) – 调用此方法的 Joinable 对象。

返回

如果 joinable 是传入上下文管理器的第一个对象,则返回用于通知上下文管理器进程尚未加入的 all-reduce 的异步工作句柄;否则返回 None

class torch.distributed.algorithms.Joinable[source][source]

这定义了可加入类的抽象基类。

可加入类(继承自 Joinable)应实现 join_hook(),该方法返回 JoinHook 实例,此外还应实现 join_device()join_process_group(),它们分别返回设备和进程组信息。

abstract property join_device: device

返回从中执行 join 上下文管理器所需的集合通信的设备。

abstract join_hook(**kwargs)[source][source]

为给定的 Joinable 返回 JoinHook 实例。

参数

kwargs (dict) – 一个 dict,其中包含用于在运行时修改 join 钩子行为的任何关键字参数;共享同一 join 上下文管理器的所有 Joinable 实例都将转发 kwargs 的相同值。

返回类型

JoinHook

abstract property join_process_group: Any

返回 join 上下文管理器自身所需的集合通信的进程组。

class torch.distributed.algorithms.JoinHook[source][source]

这定义了一个 join 钩子,它在 join 上下文管理器中提供两个入口点。

入口点:主钩子,在存在未加入的进程时重复调用;后置钩子,在所有进程都加入后调用一次。

要为通用 join 上下文管理器实现 join 钩子,请定义一个继承自 JoinHook 的类,并根据需要覆盖 main_hook()post_hook()

main_hook()[source][source]

当存在未加入的进程时,调用此钩子以遮蔽训练迭代中的集合通信。

训练迭代,即,在一个前向传递、反向传递和优化器步骤中。

post_hook(is_last_joiner)[source][source]

在所有进程都加入后调用钩子。

它被传递一个额外的 bool 参数 is_last_joiner,指示该 rank 是否是最后加入的 rank 之一。

参数

is_last_joiner (bool) – 如果 rank 是最后加入的 rank 之一,则为 True;否则为 False

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源