分布式自动微分设计¶
本笔记将介绍分布式自动微分的详细设计,并逐步讲解其内部机制。在继续之前,请确保您熟悉自动微分机制和分布式 RPC 框架。
背景¶
假设您有两个节点,并且一个非常简单的模型被分割到这两个节点上。这可以使用torch.distributed.rpc
实现如下
import torch
import torch.distributed.rpc as rpc
def my_add(t1, t2):
return torch.add(t1, t2)
# On worker 0:
t1 = torch.rand((3, 3), requires_grad=True)
t2 = torch.rand((3, 3), requires_grad=True)
# Perform some computation remotely.
t3 = rpc.rpc_sync("worker1", my_add, args=(t1, t2))
# Perform some computation locally based on remote result.
t4 = torch.rand((3, 3), requires_grad=True)
t5 = torch.mul(t3, t4)
# Compute some loss.
loss = t5.sum()
分布式自动微分背后的主要动机是能够对这种分布式模型运行反向传播,使用我们计算的loss
并为所有需要梯度的张量记录相应的梯度。
前向传播期间的自动微分记录¶
PyTorch 在前向传播期间构建自动微分图,并且此图用于执行反向传播。有关更多详细信息,请参阅自动微分如何编码历史。
对于分布式自动微分,我们需要跟踪前向传播期间的所有 RPC,以确保反向传播能够正确执行。为此,当我们执行 RPC 时,我们将send
和recv
函数附加到自动微分图上。
send
函数附加到 RPC 的源,其输出边指向 RPC 输入张量的自动微分函数。在反向传播期间,此函数的输入是从目标节点接收的,作为相应recv
函数的输出。recv
函数附加到 RPC 的目标,其输入是从使用输入张量在目标节点上执行的运算符中检索的。在反向传播期间,此函数的输出梯度将发送到源节点的相应send
函数。每个
send-recv
对都分配一个全局唯一的autograd_message_id
来唯一标识该对。这在反向传播期间在远程节点上查找相应函数时非常有用。对于RRef,每当我们调用
torch.distributed.rpc.RRef.to_here()
时,我们都会为所涉及的张量附加一个合适的send-recv
对。
例如,这是上面示例的自动微分图的样子(为简单起见,排除了 t5.sum()):
分布式自动微分上下文¶
每个使用分布式自动微分的前向和反向传播都会被分配一个唯一的torch.distributed.autograd.context
,并且此上下文具有全局唯一的autograd_context_id
。根据需要,此上下文会在每个节点上创建。
此上下文具有以下用途:
多个节点运行分布式反向传播可能会在同一个张量上累积梯度,因此,在我们有机会运行优化器之前,张量的
.grad
字段将包含来自各种分布式反向传播的梯度。这类似于在本地多次调用torch.autograd.backward()
。为了提供一种分离每个反向传播梯度的方法,梯度会在每个反向传播的torch.distributed.autograd.context
中累积。在前向传播期间,我们将每个自动微分传递的
send
和recv
函数存储在此上下文中。这确保我们持有对自动微分图中相应节点的引用以使其保持活动状态。此外,在反向传播期间,很容易查找相应的send
和recv
函数。通常,我们也使用此上下文为每个分布式自动微分传递存储一些元数据。
从用户的角度来看,自动微分上下文设置如下所示
import torch.distributed.autograd as dist_autograd
with dist_autograd.context() as context_id:
loss = model.forward()
dist_autograd.backward(context_id, loss)
需要注意的是,您的模型的前向传递必须在分布式自动微分上下文管理器中调用,因为需要有效的上下文才能确保所有 send
和 recv
函数都正确存储,以便在所有参与节点上运行反向传递。
分布式反向传递¶
在本节中,我们将概述在分布式反向传递期间准确计算依赖项的挑战,并描述一些关于如何执行分布式反向传递的算法(以及权衡)。
计算依赖项¶
考虑以下在单台机器上运行的代码片段
import torch
a = torch.rand((3, 3), requires_grad=True)
b = torch.rand((3, 3), requires_grad=True)
c = torch.rand((3, 3), requires_grad=True)
d = a + b
e = b * c
d.sum.().backward()
上面代码的自动微分图如下所示
自动微分引擎作为反向传递的一部分执行的第一个步骤是计算自动微分图中每个节点的依赖项数量。这有助于自动微分引擎了解图中的哪个节点已准备好执行。 add(1)
和 mul(0)
中的括号内数字表示依赖项的数量。如您所见,这意味着在反向传递期间,add
节点需要 1 个输入,而 mul
节点不需要任何输入(换句话说,不需要执行)。本地自动微分引擎通过从根节点(在本例中为 d
)遍历图来计算这些依赖项。
自动微分图中的某些节点可能不会在反向传递中执行,这给分布式自动微分带来了挑战。考虑以下使用 RPC 的代码片段。
import torch
import torch.distributed.rpc as rpc
a = torch.rand((3, 3), requires_grad=True)
b = torch.rand((3, 3), requires_grad=True)
c = torch.rand((3, 3), requires_grad=True)
d = rpc.rpc_sync("worker1", torch.add, args=(a, b))
e = rpc.rpc_sync("worker1", torch.mul, args=(b, c))
loss = d.sum()
上面代码相关的自动微分图将是
计算此分布式自动微分图的依赖项更具挑战性,并且需要一些开销(无论是在计算方面还是网络通信方面)。
对于对性能敏感的应用程序,我们可以通过假设每个 send
和 recv
函数在反向传递中都是有效的来避免大量开销(大多数应用程序不会执行未使用的 RPC)。这简化了分布式自动微分算法,并且效率更高,但代价是应用程序需要了解其局限性。此算法称为 快速模式算法,下面将详细介绍。
在一般情况下,可能并非每个 send
和 recv
函数在反向传递中都是有效的。为了解决这个问题,我们提出了一种 智能模式算法,将在后面的章节中介绍。请注意,目前仅实现了 快速 模式算法。
快速模式算法¶
此算法的关键假设是,当我们运行反向传递时,每个 send
函数都有一个依赖项。换句话说,我们假设我们将通过 RPC 从另一个节点接收梯度。
算法如下
我们从拥有反向传递根节点的工作进程开始(所有根节点都必须是本地的)。
查找当前 分布式自动微分上下文 的所有
send
函数。从提供的根节点和我们检索到的所有
send
函数开始,在本地计算依赖项。计算依赖项后,使用提供的根节点启动本地自动微分引擎。
当自动微分引擎执行
recv
函数时,recv
函数通过 RPC 将输入梯度发送到相应的工作进程。每个recv
函数都知道目标工作进程 ID,因为它是在前向传递期间记录的。recv
函数还将autograd_context_id
和autograd_message_id
发送到远程主机。当远程主机接收到此请求时,我们将使用
autograd_context_id
和autograd_message_id
来查找相应的send
函数。如果这是工作进程第一次接收到给定
autograd_context_id
的请求,它将按照上面第 1-3 点所述在本地计算依赖项。然后将第 6 点中检索到的
send
函数排队以在该工作进程的本地自动微分引擎上执行。最后,我们不是在张量的
.grad
字段上累积梯度,而是针对每个 分布式自动微分上下文 分别累积梯度。梯度存储在Dict[Tensor, Tensor]
中,它基本上是从张量到其关联梯度的映射,可以使用get_gradients()
API 检索此映射。
例如,使用分布式自动微分的完整代码如下所示
import torch
import torch.distributed.autograd as dist_autograd
import torch.distributed.rpc as rpc
def my_add(t1, t2):
return torch.add(t1, t2)
# On worker 0:
# Setup the autograd context. Computations that take
# part in the distributed backward pass must be within
# the distributed autograd context manager.
with dist_autograd.context() as context_id:
t1 = torch.rand((3, 3), requires_grad=True)
t2 = torch.rand((3, 3), requires_grad=True)
# Perform some computation remotely.
t3 = rpc.rpc_sync("worker1", my_add, args=(t1, t2))
# Perform some computation locally based on remote result.
t4 = torch.rand((3, 3), requires_grad=True)
t5 = torch.mul(t3, t4)
# Compute some loss.
loss = t5.sum()
# Run the backward pass.
dist_autograd.backward(context_id, [loss])
# Retrieve the gradients from the context.
dist_autograd.get_gradients(context_id)
分布式自动微分图及其依赖项如下所示(为简单起见,排除了 t5.sum())
将 快速模式算法 应用于上述示例将如下所示
在
Worker 0
上,我们从根节点loss
和send1
开始计算依赖项。结果,send1
被标记为具有 1 个依赖项,Worker 0
上的mul
被标记为具有 1 个依赖项。现在,我们在
Worker 0
上启动本地自动微分引擎。我们首先执行mul
函数,将其输出累积到自动微分上下文中作为t4
的梯度。然后,我们执行recv2
,它将梯度发送到Worker 1
。由于这是
Worker 1
第一次听到此反向传递,因此它开始依赖项计算,并为send2
、add
和recv1
适当地标记依赖项。接下来,我们将
send2
排队到Worker 1
的本地自动微分引擎上,这反过来又执行add
和recv1
。当执行
recv1
时,它将梯度发送到Worker 0
。由于
Worker 0
已经计算了此反向传递的依赖项,因此它只需在本地排队并执行send1
。最后,
t1
、t2
和t4
的梯度累积在 分布式自动微分上下文 中。
分布式优化器¶
DistributedOptimizer
的工作原理如下
获取要优化的远程参数列表(
RRef
)。这些也可以是包装在本地RRef
中的本地参数。获取
Optimizer
类作为要在所有不同的RRef
所有者上运行的本地优化器。分布式优化器在每个工作进程节点上创建本地
Optimizer
的实例,并持有指向它们的RRef
。当调用
torch.distributed.optim.DistributedOptimizer.step()
时,分布式优化器使用 RPC 远程执行所有相应远程工作进程上的本地优化器。必须将分布式自动微分context_id
作为输入提供给torch.distributed.optim.DistributedOptimizer.step()
。本地优化器使用此 ID 应用存储在相应上下文中的梯度。如果多个并发分布式优化器正在更新工作进程上的相同参数,则这些更新将通过锁进行序列化。
简单的端到端示例¶
将所有内容放在一起,以下是一个使用分布式自动微分和分布式优化器的简单端到端示例。如果将代码放入名为“dist_autograd_simple.py”的文件中,则可以使用命令 MASTER_ADDR="localhost" MASTER_PORT=29500 python dist_autograd_simple.py
运行它。
import torch
import torch.multiprocessing as mp
import torch.distributed.autograd as dist_autograd
from torch.distributed import rpc
from torch import optim
from torch.distributed.optim import DistributedOptimizer
def random_tensor():
return torch.rand((3, 3), requires_grad=True)
def _run_process(rank, dst_rank, world_size):
name = "worker{}".format(rank)
dst_name = "worker{}".format(dst_rank)
# Initialize RPC.
rpc.init_rpc(
name=name,
rank=rank,
world_size=world_size
)
# Use a distributed autograd context.
with dist_autograd.context() as context_id:
# Forward pass (create references on remote nodes).
rref1 = rpc.remote(dst_name, random_tensor)
rref2 = rpc.remote(dst_name, random_tensor)
loss = rref1.to_here() + rref2.to_here()
# Backward pass (run distributed autograd).
dist_autograd.backward(context_id, [loss.sum()])
# Build DistributedOptimizer.
dist_optim = DistributedOptimizer(
optim.SGD,
[rref1, rref2],
lr=0.05,
)
# Run the distributed optimizer step.
dist_optim.step(context_id)
def run_process(rank, world_size):
dst_rank = (rank + 1) % world_size
_run_process(rank, dst_rank, world_size)
rpc.shutdown()
if __name__ == '__main__':
# Run world_size workers
world_size = 2
mp.spawn(run_process, args=(world_size,), nprocs=world_size)