TorchInductor GPU 性能分析¶
本节列出了有用的命令和工作流程,可以帮助您深入了解 TorchInductor 中模型的性能。当模型运行速度不如预期时,您可能需要检查模型的各个内核。通常,占用 GPU 时间最多的内核是最令人感兴趣的。之后,您可能还想直接运行各个内核并检查其性能。PyTorch 提供了涵盖上述所有内容的工具。
相关的环境变量¶
您可以在分析中使用以下环境变量
TORCHINDUCTOR_UNIQUE_KERNEL_NAMES
默认情况下,TorchInductor 将 Triton 内核命名为
‘triton\_’
。启用此环境变量后,inductor 将在跟踪中生成更有意义的内核名称,例如,triton_poi_fused_cat_155
,其中包含内核类别(点向操作的poi
)和原始 ATen 算子。默认情况下禁用此配置以提高编译缓存命中的机会。
TORCHINDUCTOR_BENCHMARK_KERNEL
启用此功能将使 inductor 代码生成 harness 对各个 triton 内核进行基准测试。
TORCHINDUCTOR_MAX_AUTOTUNE
Inductor 自动调优器将基准测试更多
triton.Configs
并选择性能最佳的配置。这将增加编译时间,以期提高性能。
分解模型 GPU 时间¶
以下是将模型的执行时间分解为各个内核的步骤。我们以 mixnet_l
为例。
运行模型的基准测试脚本
TORCHINDUCTOR_UNIQUE_KERNEL_NAMES=1 TORCHINDUCTOR_BENCHMARK_KERNEL=1 python -u benchmarks/dynamo/timm_models.py –backend inductor –amp –performance –dashboard –only mixnet_l –disable-cudagraphs –training
注意
该工具依赖于内核名称来确定其类别。启用
TORCHINDUCTOR_UNIQUE_KERNEL_NAMES
至关重要。在输出日志中,查找以下行
**Compiled module path: /tmp/torchinductor_shunting/qz/cqz7hvhood7y3psp7fy6msjxsxyli7qiwiybizdwtjw6ffyq5wwd.py**
我们为每个编译模块都有一行。如果没有额外的图中断,我们将在日志中看到 2 行这样的行,一行用于前向图,另一行用于后向图。
对于我们的示例命令,我们分别获得了前向图和后向图的以下编译模块
https://gist.github.com/shunting314/c2a4d8a28b00fcb5586d0e9d9bf77f9f
https://gist.github.com/shunting314/48efc83b12ec3ead950052e4a0220b10
现在我们可以深入研究每个单独编译模块的性能。为了说明目的,让我们选择前向图的模块。为了方便起见,我将其命名为
fwd.py
。使用-p
参数直接运行它**> python fwd.py -p**
请参阅此示例 gist 中的完整输出日志。
在输出中,您可以注意到以下内容
我们为配置文件编写了一个 Chrome 跟踪文件,以便我们可以加载跟踪并与之交互。在日志中,查找如下行以查找跟踪文件的路径。
Chrome 跟踪配置文件已写入 /tmp/compiled_module_profile.json
将跟踪加载到 Chrome 中(在 Chrome 浏览器中访问 chrome://tracing 并按照 UI 建议加载文件)将显示如下 UI
![]()
您可以放大和缩小以检查配置文件。
我们通过如下日志行报告 GPU 时间占挂钟时间的百分比
GPU 繁忙时间百分比:102.88%
有时您可能会看到大于 100% 的值。原因是 PyTorch 在启用分析的情况下使用内核执行时间,而在禁用分析的情况下使用挂钟时间。分析可能会稍微扭曲内核执行时间。但总的来说,这不应该是一个大问题。
如果我们使用小批量大小运行像
densenet121
这样的模型,我们将看到 GPU 繁忙时间百分比很低(Forward graph) Percent of time when GPU is busy: 32.69%
这意味着该模型具有大量的 CPU 开销。这与启用 cudagraphs 可以大大提高 densenet121 的性能的事实一致。
我们可以将 GPU 时间分解为不同类别的内核。在
mixnet_l
示例中,我们看到点向内核占用 28.58%
规约内核占用 13.85%
持久规约内核占用 3.89%
其余为 mm/conv 的 cutlass/cudnn 内核,占用 56.57%
此信息可以在每个内核类别的报告的摘要行(最后一行)中找到。
我们还可以放大到特定类别的内核。例如,让我们检查规约内核
我们可以看到每个单独的规约内核的执行时间的有序表。我们还看到了内核执行的次数。这在几个方面很有帮助
如果一个内核只占用少量时间,例如 0.1%,那么改进它最多只能带来 0.1% 的总体增益。不值得在这上面花费大量精力。
如果一个内核占用 2% 的时间,那么将其改进 2 倍将带来 1% 的总体增益,这证明了努力是值得的。
基准测试单个 Triton 内核¶
假设我们想仔细看看 triton_red_fused\__native_batch_norm_legit_functional_16
,它是最昂贵的规约内核,在前向图中占总体挂钟时间的 2.19%。
我们可以在 fwd.py
中查找内核名称,并找到如下注释
# kernel path: /tmp/torchinductor_shunting/jk/cjk2vm3446xrk7rth7hr6pun7xxo3dnzubwcn6ydrpifal4eykrz.py

为了方便起见,我将其重命名为 k.py。这是此文件的粘贴。
k.py
是一个独立的 Python 模块,包含内核代码及其基准测试。
直接运行 k.py
将报告其执行时间和带宽

我们可以通过运行以下命令来检查 max-autotune 是否对此内核有帮助
**TORCHINDUCTOR_MAX_AUTOTUNE=1 python /tmp/k.py**
我们还可以临时添加更多规约启发式方法并再次运行脚本,以检查这如何帮助内核。