我们很高兴地宣布 PyTorch® 2.2 发布(发行说明)!PyTorch 2.2 通过集成 FlashAttention-v2,使 scaled_dot_product_attention 的性能提升约 2 倍,并引入了 AOTInductor,这是一款专为非 Python 服务器端部署而构建的新型预先编译和部署工具。
此版本还包括对 Optimizers 的 torch.compile 改进支持、多项新的 inductor 优化以及名为 TORCH_LOGS 的新日志记录机制。
请注意,我们正在弃用 macOS x86 支持,PyTorch 2.2.x 将是支持 macOS x64 的最后一个版本。
除了 2.2,我们还将发布一系列针对 PyTorch 领域库的更新。更多详细信息可在库更新博客中找到。
自 PyTorch 2.1 以来,此版本由 3,628 次提交和 521 位贡献者组成。我们衷心感谢我们敬业的社区所做的贡献。一如既往,我们鼓励您试用这些功能并在我们改进 2.2 的过程中报告任何问题。有关如何开始使用 PyTorch 2 系列的更多信息,请访问我们的入门页面。
总结
- scaled_dot_product_attention (SDPA) 现在支持 FlashAttention-2,与以前的版本相比,速度提升约 2 倍。
- PyTorch 2.2 引入了 TorchInductor 的新型预先扩展,名为 AOTInductor,旨在为非 Python 服务器端编译和部署 PyTorch 程序。
- torch.distributed 支持一种用于初始化和表示 ProcessGroups 的新抽象,称为 device_mesh。
- PyTorch 2.2 发布了一个名为 TORCH_LOGS 的标准化、可配置的日志记录机制。
- PyTorch 2.2 包含多项 torch.compile 改进,包括对编译 Optimizers 的改进支持以及改进的 TorchInductor 融合和布局优化。
- 请注意,我们正在弃用 macOS x86 支持,PyTorch 2.2.x 将是支持 macOS x64 的最后一个版本。
| 稳定版 | Beta | 性能改进 |
| FlashAttention-2 集成 | Inductor 优化 | |
| AOTInductor | aarch64 优化 | |
| TORCH_LOGS | ||
| device_mesh | ||
| Optimizer 编译 |
*要查看完整的公开功能提交列表,请点击此处。
Beta 功能
[Beta] torch.nn.functional.scaled_dot_product_attention 中对 FlashAttention-2 的支持
torch.nn.functional.scaled_dot_product_attention (SDPA) 现在支持 FlashAttention-2,速度提升约 2 倍(与以前的版本相比),在 A100 GPU 上达到理论最大 FLOPs/s 的约 50-73%。
有关 FlashAttention-2 的更多信息,请参阅这篇论文。
有关如何使用 SDPA 的教程,请参阅此教程。
[Beta] AOTInductor:用于 torch.export-ed 程序的预先编译和部署
AOTInductor 是 TorchInductor 的一个扩展,旨在处理导出的 PyTorch 模型,对其进行优化,并生成共享库以及其他相关工件。这些编译后的工件可以部署在非 Python 环境中,这些环境通常用于服务器端的推理。请注意,AOTInductor 支持与 Inductor 相同的后端,包括 CUDA、ROCm 和 CPU。
有关更多信息,请参阅 AOTInductor 教程。
[Beta] 通过 TORCH_LOGS 进行细粒度可配置日志记录
PyTorch 现在提供了一个标准化、可配置的日志记录机制,可用于分析各种子系统(例如编译和分布式操作)的状态。
可以通过 TORCH_LOGS 环境变量启用日志。例如,要将 TorchDynamo 的日志级别设置为 logging.ERROR,将 TorchInductor 的日志级别设置为 logging.DEBUG,请将 TORCH_LOGS=”-dynamo,+inductor” 传递给 PyTorch。
[Beta] torch.distributed.device_mesh
PyTorch 2.2 引入了一种用于表示分布式并行中涉及的 ProcessGroups 的新抽象,称为 torch.distributed.device_mesh。此抽象允许用户通过 N 维数组表示节点间和节点内进程组,例如,一个维度可以是 FSDP 中的数据并行,而另一个维度可以表示 FSDP 中的张量并行。
有关更多信息,请参阅 device_mesh 教程。
[Beta] 改进 torch.compile 优化器
torch.compile 优化器已进行多项改进,包括更少的开销和对 cuda graphs 的支持。
有关改进的更多技术细节,请访问 dev-discuss,有关 torch.compile 优化器的配方可在此处获得。
性能改进
Inductor 性能优化
TorchInductor 中添加了多项性能优化,包括 torch.concat 的水平融合支持、改进的卷积布局优化以及改进的 scaled_dot_product_attention 模式匹配。
有关 inductor 优化的完整列表,请参阅发行说明。
aarch64 性能优化
PyTorch 2.2 包含多项针对 aarch64 的性能增强,包括支持 mkldnn 权重预打包、改进的 ideep 原始缓存以及通过对 OneDNN 的 固定格式内核改进 提高推理速度。
有关 aarch64 优化的完整列表,请参阅发行说明。