快捷方式

入门指南

在阅读本节之前,请务必阅读 torch.compiler

让我们从一个简单的 torch.compile 示例开始,该示例演示了如何将 torch.compile 用于推理。该示例演示了 torch.cos()torch.sin() 功能,它们是逐点算子的示例,因为它们对向量中的每个元素进行操作。此示例可能不会显示显著的性能提升,但应该有助于您直观地理解如何在自己的程序中使用 torch.compile

注意

要运行此脚本,您的机器上至少需要有一个 GPU。如果您没有 GPU,可以删除下面代码片段中的 .to(device="cuda:0") 代码,它将在 CPU 上运行。您也可以将设备设置为 xpu:0 以在 Intel® GPU 上运行。

import torch
def fn(x):
   a = torch.cos(x)
   b = torch.sin(a)
   return b
new_fn = torch.compile(fn, backend="inductor")
input_tensor = torch.randn(10000).to(device="cuda:0")
a = new_fn(input_tensor)

您可能想要使用的更著名的逐点算子是 torch.relu()。Eager 模式下的逐点操作不是最优的,因为每个操作都需要从内存中读取一个张量,进行一些更改,然后再将这些更改写回。inductor 执行的最重要的优化是融合。在上面的示例中,我们可以将 2 次读取(xa)和 2 次写入(ab)变成 1 次读取(x)和 1 次写入(b),这一点至关重要,特别是对于较新的 GPU,其瓶颈在于内存带宽(向 GPU 发送数据的速度)而不是计算(GPU 执行浮点运算的速度)。

inductor 提供的另一个主要优化是自动支持 CUDA graphs。CUDA graphs 有助于消除从 Python 程序启动单个内核的开销,这对于较新的 GPU 尤其重要。

TorchDynamo 支持许多不同的后端,但 TorchInductor 特别通过生成 Triton 内核来工作。让我们将上面的示例保存到一个名为 example.py 的文件中。我们可以通过运行 TORCH_COMPILE_DEBUG=1 python example.py 来检查生成的 Triton 内核代码。脚本执行时,您应该会在终端看到打印出的 DEBUG 消息。靠近日志末尾,您应该会看到包含 torchinductor_<your_username> 的文件夹路径。在该文件夹中,您可以找到 output_code.py 文件,其中包含类似于以下内容的生成的内核代码

@pointwise(size_hints=[16384], filename=__file__, triton_meta={'signature': {'in_ptr0': '*fp32', 'out_ptr0': '*fp32', 'xnumel': 'i32'}, 'device': 0, 'constants': {}, 'mutated_arg_names': [], 'configs': [AttrsDescriptor(divisible_by_16=(0, 1, 2), equal_to_1=())]})
@triton.jit
def triton_(in_ptr0, out_ptr0, xnumel, XBLOCK : tl.constexpr):
   xnumel = 10000
   xoffset = tl.program_id(0) * XBLOCK
   xindex = xoffset + tl.arange(0, XBLOCK)[:]
   xmask = xindex < xnumel
   x0 = xindex
   tmp0 = tl.load(in_ptr0 + (x0), xmask, other=0.0)
   tmp1 = tl.cos(tmp0)
   tmp2 = tl.sin(tmp1)
   tl.store(out_ptr0 + (x0 + tl.zeros([XBLOCK], tl.int32)), tmp2, xmask)

注意

以上代码片段是一个示例。根据您的硬件,您可能会看到生成的不同代码。

您可以验证 cossin 的融合确实发生了,因为 cossin 操作发生在一个 Triton 内核中,临时变量保存在寄存器中,访问速度非常快。

此处阅读更多关于 Triton 性能的信息。由于代码是用 Python 编写的,即使您没有编写过许多 CUDA 内核,也相当容易理解。

接下来,让我们尝试一个实际模型,例如来自 PyTorch Hub 的 resnet50。

import torch
model = torch.hub.load('pytorch/vision:v0.10.0', 'resnet50', pretrained=True)
opt_model = torch.compile(model, backend="inductor")
opt_model(torch.randn(1,3,64,64))

这不是唯一可用的后端,您可以在 REPL 中运行 torch.compiler.list_backends() 来查看所有可用的后端。接下来可以尝试 cudagraphs 作为参考。

使用预训练模型

PyTorch 用户经常利用来自 transformersTIMM 的预训练模型,而 TorchDynamo 和 TorchInductor 的设计目标之一就是能够即开即用地支持任何用户希望编写的模型。

让我们直接从 HuggingFace Hub 下载一个预训练模型并对其进行优化

import torch
from transformers import BertTokenizer, BertModel
# Copy pasted from here https://hugging-face.cn/bert-base-uncased
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained("bert-base-uncased").to(device="cuda:0")
model = torch.compile(model, backend="inductor") # This is the only line of code that we changed
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt').to(device="cuda:0")
output = model(**encoded_input)

如果您从模型和 encoded_input 中移除 to(device="cuda:0"),那么 Triton 将生成 C++ 内核,这些内核将针对在 CPU 上运行进行优化。您可以检查 BERT 的 Triton 或 C++ 内核。它们比我们上面尝试的三角函数示例更复杂,但您同样可以快速浏览它们,看看是否理解 PyTorch 的工作原理。

类似地,让我们尝试一个 TIMM 示例

import timm
import torch
model = timm.create_model('resnext101_32x8d', pretrained=True, num_classes=2)
opt_model = torch.compile(model, backend="inductor")
opt_model(torch.randn(64,3,7,7))

后续步骤

在本节中,我们回顾了一些推理示例,并对 torch.compile 的工作原理有了基本了解。接下来您可以查看以下内容

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源