快捷方式

TorchInductor GPU 性能分析

本节列出了有用的命令和工作流程,可以帮助您深入了解 TorchInductor 中模型的性能。当模型运行速度不如预期时,您可能需要检查模型的各个内核。通常,占用大部分 GPU 时间的内核是最令人感兴趣的。之后,您可能还想直接运行各个内核并检查其性能。PyTorch 提供工具来涵盖上述所有内容。

相关的环境变量

您可以在分析中使用以下环境变量

  • TORCHINDUCTOR_UNIQUE_KERNEL_NAMES

    • 默认情况下,TorchInductor 将 Triton 内核命名为 ‘triton\_’。当启用此环境变量时,inductor 会在跟踪中生成更有意义的内核名称,例如 triton_poi_fused_cat_155,其中包含内核类别 (poi 用于逐点运算) 和原始 ATen 算子。此配置默认情况下处于禁用状态,以提高编译缓存命中率。

  • TORCHINDUCTOR_BENCHMARK_KERNEL

    • 启用此功能将使 inductor 代码生成工具对各个 triton 内核进行基准测试。

  • TORCHINDUCTOR_MAX_AUTOTUNE

    • Inductor 自动调谐器将对更多 triton.Configs 进行基准测试,并选择性能最佳的结果。这将增加编译时间,但希望能够提高性能。

细分模型 GPU 时间

以下是将模型执行时间细分为各个内核的步骤。我们以 mixnet_l 为例。

  1. 运行模型的基准测试脚本

    TORCHINDUCTOR_UNIQUE_KERNEL_NAMES=1 TORCHINDUCTOR_BENCHMARK_KERNEL=1
    python -u benchmarks/dynamo/timm_models.py –backend inductor –amp
    –performance –dashboard –only mixnet_l –disable-cudagraphs –training
    

    注意

    该工具依赖于内核名称来确定其类别。启用 TORCHINDUCTOR_UNIQUE_KERNEL_NAMES 对此至关重要。

  2. 在输出日志中,查找以下行

    **Compiled module path:
    /tmp/torchinductor_shunting/qz/cqz7hvhood7y3psp7fy6msjxsxyli7qiwiybizdwtjw6ffyq5wwd.py**
    

每个编译的模块都有一行。如果没有额外的图中断,我们将在日志中看到 2 行,分别对应于前向图和后向图。

对于我们的示例命令,我们分别获得了以下用于前向图和后向图的编译模块

  1. 现在我们可以深入研究每个编译模块的性能。为了说明目的,让我们选择前向图的编译模块。为方便起见,我将其命名为 fwd.py。使用 -p 参数直接运行它

    **> python fwd.py -p**
    

查看此 示例 gist 中的完整输出日志。

在输出中,您可以注意到以下内容

  • 我们为性能分析编写了一个 Chrome 跟踪文件,以便我们可以加载跟踪并与之交互。在日志中,查找以下行以找到跟踪文件的路径。

Chrome 性能分析的跟踪文件已写入 /tmp/compiled_module_profile.json

将跟踪文件加载到 Chrome 中(在 Chrome 浏览器中访问 chrome://tracing 并按 UI 指示加载文件)将显示以下 UI

_images/trace.png

您可以放大和缩小以查看性能分析。

  • 我们通过类似以下的日志行报告 GPU 时间相对于挂钟时间的百分比

    GPU 繁忙的时间百分比:102.88%

    有时您可能会看到大于 100% 的值。原因是 PyTorch 在启用性能分析时使用内核执行时间,而在禁用性能分析时使用挂钟时间。性能分析可能会稍微扭曲内核执行时间。但总体而言,这应该不会造成太大问题。

    如果我们像 densenet121 一样运行模型,并且批次大小很小,我们会看到 GPU 繁忙的时间百分比很低

    (Forward graph) Percent of time when GPU is busy: 32.69%
    

    这意味着模型有很多 CPU 开销。这与启用 cudagraphs 能够大幅提高 densenet121 的性能相一致。

  • 我们可以将 GPU 时间细分为不同类别的内核。在 mixnet_l 示例中,我们看到

    • 逐点运算内核占用 28.58%

    • 约简内核占用 13.85%

    • 持久性约简内核占用 3.89%

    • 其余为用于 mm/conv 的 cutlass/cudnn 内核,占用 56.57%

    此信息可以在每个内核类别的报告的摘要行(最后一行)中找到。

  • 我们还可以放大到某个特定类别的内核。例如,让我们检查约简内核

    _images/kernel_breakdown.png

    我们可以看到每个约简内核的执行时间排序表。我们还可以看到内核被执行的次数。这有几个好处

    • 如果内核仅占用很少的时间,例如 0.1%,对其进行改进最多只会带来 0.1% 的总体收益。不值得为此花费太多精力。

    • 如果内核占用 2% 的时间,将其性能提高 2 倍将带来 1% 的总体收益,这证明了努力的价值。

对各个 Triton 内核进行基准测试

假设我们想要更仔细地看一下 triton_red_fused\__native_batch_norm_legit_functional_16,这是最昂贵的缩减内核,占前向图总墙时间的 2.19%。

我们可以在 fwd.py 中查找内核名称,并找到类似的注释

# 内核路径:/tmp/torchinductor_shunting/jk/cjk2vm3446xrk7rth7hr6pun7xxo3dnzubwcn6ydrpifal4eykrz.py

_images/inductor_code.png

为了方便起见,我将它重命名为 k.py。以下是此 文件 的粘贴。

k.py 是一个独立的 Python 模块,包含内核代码及其基准测试。

直接运行 k.py 将报告其执行时间和带宽

_images/terminal_printout.png

我们可以通过运行以下命令来检查最大自动调整是否对该内核有帮助

**TORCHINDUCTOR_MAX_AUTOTUNE=1 python /tmp/k.py**

我们也可以暂时添加更多缩减启发式方法,并再次运行脚本以检查这对内核是否有帮助。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得您的问题的解答

查看资源