PyTorch 2.0 性能仪表板¶

作者： Bin Bao 和 Huy Do

PyTorch 2.0 的性能在 nightly 运行于这个仪表板上。性能收集每晚在 12 个 GCP A100 节点上运行。每个节点包含一个 40GB A100 英伟达 GPU 和一个 6 核 2.2GHz 英特尔至强 CPU。相应的 CI 工作流文件可以找到这里。

如何阅读仪表板？¶

首页显示了我们衡量的三个基准测试套件的表格，TorchBench、Huggingface 和 TIMM，以及一个基准测试套件的图表（默认设置）。例如，当前的默认图表显示了 TorchBench 在过去 7 天中 AMP 训练性能趋势。页面顶部的下拉列表可以选择查看不同选项的表格和图表。除了通过率外，还报告了 3 个关键性能指标：几何平均加速、平均编译时间 和 峰值内存占用压缩率。几何平均加速 和 峰值内存占用压缩率 与 PyTorch 渴望性能进行比较，数值越大越好。这些表格上的每个单独的性能数字都可以点击，这将带您进入一个视图，其中包含该特定基准测试套件中所有测试的详细数字。

仪表板上衡量了什么？¶

所有仪表板测试都定义在这个函数中。确切的测试配置可能会发生变化，但目前，我们使用 AMP 精度测量了三个基准测试套件的推理和训练性能。我们还测量了 TorchInductor 的不同设置，包括 default、with_cudagraphs (default + cudagraphs) 和 dynamic (default + dynamic_shapes)。

我可以在合并之前检查我的 PR 是否影响仪表板上的 TorchInductor 性能吗？¶

可以通过单击这里的 Run workflow 按钮，并选择您的 PR 分支进行提交来手动触发单个仪表板运行。这将启动一个完整的仪表板运行，其中包含您 PR 的更改。完成后，您可以通过在性能仪表板 UI 上选择相应的分支名称和提交 ID 来检查结果。请注意，这是一次昂贵的 CI 运行。由于资源有限，请明智地使用此功能。

如何本地运行任何性能测试？¶

完整的仪表板运行期间使用的确切命令行可以在任何最近的 CI 运行日志中找到。工作流页面是查找一些最近运行的日志的好地方。在这些日志中，您可以搜索类似于 python benchmarks/dynamo/huggingface.py --performance --cold-start-latency --inference --amp --backend inductor --disable-cudagraphs --device cuda 的行，如果您有支持 PyTorch 2.0 的 GPU，则可以在本地运行它们。 python benchmarks/dynamo/huggingface.py -h 将为您提供有关基准测试脚本选项的详细说明。

PyTorch 2.0 性能仪表板¶

如何阅读仪表板？¶

仪表板上衡量了什么？¶

我可以在合并之前检查我的 PR 是否影响仪表板上的 TorchInductor 性能吗？¶

如何本地运行任何性能测试？¶

文档

教程

资源