PyTorch XLA 中的 TorchDynamo 集成¶
TorchDynamo 是一个 Python 级别的 JIT 编译器,旨在使未修改的 PyTorch 程序运行得更快。它为编译器后端提供了一个干净的 API 以进行挂钩,其最大的特点是可以在 Python 字节码执行之前动态修改它。在 pytorch/xla 2.0 版本中,PyTorch/XLA 为 TorchDynamo 提供了实验性后端,用于推理和训练。
XLA 桥的工作方式是,当 Dynamo 识别到模型模式时,它将提供一个 TorchFX 图,而 PyTorch/XLA 将使用现有的 Lazy Tensor 技术来编译 FX 图并返回编译后的函数。
集成¶
目前,通过将 backend='openxla'
参数添加到 torch.compile
,可以支持 PyTorch/XLA 和 Dynamo。例如
import torch
import torch_xla.core.xla_model as xm
def add(a, b):
a_xla = a.to(xm.xla_device())
b_xla = b.to(xm.xla_device())
return a_xla + b_xla
compiled_code = torch.compile(add, backend='openxla')
print(compiled_code(torch.randn(10), torch.randn(10)))
推理¶
这是一个使用 torch.compile
运行 resnet18 的小代码示例
import torch
import torchvision
import torch_xla.core.xla_model as xm
def eval_model(loader):
device = xm.xla_device()
xla_resnet18 = torchvision.models.resnet18().to(device)
xla_resnet18.eval()
dynamo_resnet18 = torch.compile(
xla_resnet18, backend='openxla')
for data, _ in loader:
with torch.no_grad():
output = dynamo_resnet18(data)
使用 torch.compile
,您将看到 PyTorch/XLA 仅在初始化时跟踪 resent18 模型一次,并在每次调用 dynamo_resnet18
时执行编译后的二进制文件,而不是每次都跟踪模型。这是一个使用 torch bench 在 Cloud TPU v4-8 上比较 Dynamo 和 Lazy 的推理速度分析
模型 | 加速 |
---|---|
resnet18 | 2.59 |
resnet50 | 2.64 |
resnext50_32x4d | 1.91 |
alexnet | 1.28 |
mobilenet_v2 | 18.62 |
mnasnet1_0 | 2.68 |
vgg16 | 1.33 |
BERT_pytorch | 7.49 |
squeezenet1_1 | 2.29 |
timm_vision_transformer | 3.52 |
几何平均数 | 3.04 |
训练¶
PyTorch/XLA 也支持 Dynamo 用于训练,但它仍处于实验阶段,我们正在与 PyTorch 编译器团队合作迭代实现。这是一个使用 torch.compile
训练 resnet18 的示例
import torch
import torchvision
import torch_xla.core.xla_model as xm
def train_model(model, data, target, optimizer):
loss_fn = torch.nn.CrossEntropyLoss()
pred = model(data)
loss = loss_fn(pred, target)
loss.backward()
optimizer.step()
return pred
def train_model_main(loader):
device = xm.xla_device()
xla_resnet18 = torchvision.models.resnet18().to(device)
xla_resnet18.train()
dynamo_train_model = torch.compile(
train_model, backend='openxla')
for data, target in loader:
xla_optimizer = optim.SGD(data, lr=0.1, weight_decay=1e-2)
output = dynamo_train_model(xla_resnet18, data, target, xla_optimizer)
如果您使用 Lazy tensor,我们预计每个训练步骤提取和执行 3 个图,而不是每个训练步骤 1 个图。这是一个使用 torch bench 在 Cloud TPU v4-8 上比较 Dynamo 和 Lazy 的训练速度分析。
模型 | 加速 |
---|---|
resnet50 | 1.33 |
resnet18 | 1.33 |
BERT_pytorch | 3.07 |
resnext50_32x4d | 1.43 |
alexnet | 1.12 |
mobilenet_v2 | 1.4 |
mnasnet1_0 | 1.19 |
vgg16 | 0.81 |
timm_vision_transformer | 1.87 |
squeezenet1_1 | 1.41 |
几何平均数 | 1.41 |
注意: 我们为每个模型的 fwd 和 bwd 运行单个步骤,然后收集 e2e 时间。在现实世界中,我们将在每个训练作业中运行多个步骤,这可以很容易地隐藏来自执行的跟踪成本(因为它是异步的)。在这种情况下,Lazy Tensor 将具有更好的性能。
功能差距¶
我们想指出一个差距,这个差距阻止我们在更大规模的模型上使用 TorchDynamo。
TorchDynamo 会将前向和后向跟踪到单独的图中。对于 PyTorch/XLA,重要的是让 XLA 编译器将整个步骤视为一个图,以最好地优化速度。启动每个设备执行也有固定的开销,这使得每个训练步骤执行多个图不太理想。
与 Lazy Tensor 相比,这个差距使得它在实际的训练用例中效率较低,尤其是在训练中跟踪成本可以与执行重叠的情况下。
总结¶
TorchDynamo 为编译器后端提供了一种非常有前景的方式,可以向用户隐藏复杂性,并以图形格式轻松检索建模代码。与 PyTorch/XLA 传统的 Lazy Tensor 图提取方式相比,TorchDynamo 可以跳过每次迭代的图跟踪,从而提供更好的推理响应时间。
大多数 PyTorch/XLA 支持的模型在使用新的 dynamo-xla 桥进行推理时都看到了显着的加速。我们的社区正在努力扩展支持的模型集。关于上面提到的训练功能差距,PyTorch/XLA 社区非常高兴能够在我们即将到来的开发工作中改进训练差距。该团队将继续大力投资 TorchDynamo,并与上游合作,使训练故事更加成熟。