PyTorch 2.1：自动动态形状编译、分布式检查点

我们很高兴地宣布 PyTorch® 2.1 发布（发行说明）！PyTorch 2.1 在 torch.compile 中提供了自动动态形状支持，提供了 torch.distributed.checkpoint 用于并行保存/加载多进程上的分布式训练作业，以及 torch.compile 对 NumPy API 的支持。

此外，此版本提供了大量性能改进（例如 CPU inductor 改进、AVX512 支持、scaled-dot-product-attention 支持），以及 torch.export 的原型发布，一个完善的全图捕获机制，以及基于 torch.export 的量化功能。

除了 2.1，我们还将发布一系列 PyTorch 领域库的更新。更多详情可在库更新博客中找到。

自 2.0 以来，此版本包含 6,682 次提交和 784 位贡献者。我们衷心感谢我们敬业的社区所做的贡献。一如既往，我们鼓励您尝试这些功能并报告任何问题，以便我们改进 2.1。有关 PyTorch 2 系列入门的更多信息可在我们的入门页面找到。

总结：

torch.compile 现在包括自动支持，用于通过使用自动动态形状来检测并最大限度地减少由于张量形状变化而导致的重新编译。
torch.distributed.checkpoint 能够并行地从多个进程保存和加载模型，以及由于集群拓扑变化而进行重新分片。
torch.compile 现在可以通过将 NumPy 操作转换为 PyTorch 等效操作来编译它们。
torch.compile 现在包括对 Python 3.11 的改进支持。
新的 CPU 性能特性包括 inductor 改进（例如 bfloat16 支持和动态形状）、AVX512 内核支持和 scaled-dot-product-attention 内核。
torch.export，一个完善的全图捕获机制，作为原型功能引入，以及基于 torch.export 的量化功能。
torch.sparse 现在包括对 NVIDIA® GPU 上的半结构化 (2:4) 稀疏性的原型支持。

Beta	原型	性能改进
自动动态形状	torch.export()	AVX512 内核支持
torch.distributed.checkpoint	基于 Torch.export 的量化	scaled-dot-product-attention (SPDA) 的 CPU 优化
torch.compile + NumPy	半结构化 (2:4) 稀疏性	bfloat16 的 CPU 优化
torch.compile + Python 3.11	torchinductor 的 cpp_wrapper
torch.compile + autograd.Function
第三方设备集成：PrivateUse1

*要查看 2.1、2.0 和 1.13 公共功能提交的完整列表，请单击此处。

Beta 版功能

(Beta) 自动动态形状

动态形状是 torch.compile 内置的功能，它可以通过跟踪和基于张量的符号形状而不是静态形状（例如 [B, 128, 4] 而不是 [64, 128, 4]）生成代码来最大限度地减少重新编译。这使得 torch.compile 能够生成一个适用于多种大小的内核，而效率损失不大。动态形状在 PyTorch 2.1 中得到了极大的稳定，如果 torch.compile 注意到由于输入形状变化导致的重新编译，现在会自动启用。您可以通过将 dynamic=False 传递给 torch.compile，或通过设置 torch._dynamo.config.automatic_dynamic_shapes = False 来禁用自动动态形状。

在 PyTorch 2.1 中，我们已经展示了在各种模型类型（包括大型语言模型）上，在 CUDA 和 CPU 上启用动态形状的良好性能。

有关动态形状的更多信息，请参阅此文档。

[Beta] torch.distributed.checkpoint

torch.distributed.checkpoint 能够并行地从多个进程保存和加载模型。此外，检查点会自动处理模型和优化器之间的完全限定名称 (FQN) 映射，从而在不同集群拓扑之间实现加载时重新分片。

欲了解更多信息，请参阅 torch.distributed.checkpoint 文档和教程。

[Beta] torch.compile + NumPy

torch.compile 现在知道如何通过将 NumPy 操作转换为 PyTorch 等效操作来编译它们。由于这种集成以设备无关的方式运行，您现在只需使用 torch.compile 即可加速 NumPy 程序——甚至混合 NumPy/PyTorch 程序——通过 GPU。

请参阅 torch.compile FAQ 中的此部分，了解有关 torch.compile + NumPy 交互的更多信息，并关注PyTorch 博客，以获取即将发布的有关此功能的博客。

[Beta] torch.compile + Python 3.11

torch.compile 之前仅支持 Python 3.8-3.10 版本。用户现在可以在 Python 3.11 中使用 torch.compile 优化模型。

[Beta] torch.compile + autograd.Function

torch.compile 现在可以跟踪和优化用户定义的 autograd Functions 的反向函数，这为更大量使用扩展机制的模型解锁了训练优化。

[Beta] 改进的第三方设备支持：PrivateUse1

现在可以使用 privateuse1 调度键将第三方设备类型注册到 PyTorch。这允许设备扩展将新内核注册到 PyTorch 并将其与新键关联，从而允许用户代码与内置设备类型等效地工作。例如，要注册“my_hardware_device”，可以执行以下操作

torch.rename_privateuse1_backend("my_hardware_device")
torch.utils.generate_methods_for_privateuse1_backend()
x = torch.randn((2, 3), device='my_hardware_device')
y = x + x # run add kernel on 'my_hardware_device'

为了验证此功能，来自 Ascend NPU 的 OSS 团队已通过 PrivateUse1 功能成功将 torch_npu 作为插件集成到 pytorch 中。

有关更多信息，请参阅 PrivateUse1 教程。

原型功能

[原型] torch.export()

torch.export() 提供了一个可靠的跟踪机制，可根据 PT2.0 提供的新技术从 PyTorch 程序中捕获完整图形。

用户可以以数据流图的形式提取 PyTorch 程序的干净表示（导出 IR），该数据流图主要由对 PyTorch 运算符的直线调用组成。然后可以对导出 IR 进行转换、序列化、保存到文件、传输、重新加载以在有或没有 Python 的环境中执行。

有关更多信息，请参阅此处的教程。

[原型] 基于 torch.export 的量化

torch.ao.quantization 现在支持在 PyTorch 2 torch.export-based 流上进行量化。这包括对内置 XNNPACK 和 X64Inductor Quantizer 的支持，以及指定自己的 Quantizer 的能力。

有关使用 torch.export 进行训练后静态量化的解释，请参阅此教程；有关使用 torch.export 进行静态量化的量化感知训练，请参阅此教程。

有关如何编写自己的 Quantizer 的解释，请参阅此教程。

[原型] NVIDIA® GPU 的半结构化 (2:4) 稀疏性

torch.sparse 现在支持创建和加速半结构化稀疏 (2:4) 张量的计算。有关该格式的更多信息，请参阅 NVIDIA 的此博客。以下是引入半结构化稀疏性的一个最小示例

from torch.sparse import to_sparse_semi_structured
 
x = torch.rand(64, 64).half().cuda()
mask = torch.tensor([0, 0, 1, 1]).tile((64, 16)).cuda().bool()
linear = nn.Linear(64, 64).half().cuda()

linear.weight = nn.Parameter(to_sparse_semi_structured(linear.weight.masked_fill(~mask, 0)))
linear(x)

要了解更多信息，请参阅文档和随附的教程。

[原型] torchinductor 的 cpp_wrapper

cpp_wrapper 可以通过用 C++ 生成内核包装代码来减少在 torchinductor 中调用内核的 Python 开销。此功能仍处于原型阶段；它不支持当今在 PT2 中成功编译的所有程序。如果您发现您的用例存在限制，请提交问题以帮助我们确定优先级。

启用此功能的 API 是

import torch
import torch._inductor.config as config
config.cpp_wrapper = True

有关更多信息，请参阅教程。

性能改进

AVX512 内核支持

在 PyTorch 2.0 中，即使 CPU 支持 AVX512 指令，也会使用 AVX2 内核。现在，如果 CPU 支持 AVX512 指令，PyTorch 默认使用 AVX512 CPU 内核，这相当于在以前的版本中设置 ATEN_CPU_CAPABILITY=avx512。可以通过设置 ATEN_CPU_CAPABILITY=avx2 来启用以前的行为。

scaled-dot-product-attention (SDPA) 的 CPU 优化

PyTorch 的早期版本通过 torch.nn.functiona.scaled_dot_product_attention 为 Transformer 原语提供了优化的 CUDA 实现。PyTorch 2.1 包含了优化的基于 FlashAttention 的 CPU 例程。

请参阅此处的文档。

bfloat16 的 CPU 优化

PyTorch 2.1 包含 bfloat16 的 CPU 优化，包括改进的向量化支持和 torchinductor 代码生成。

PyTorch 2.1：自动动态形状编译，分布式检查点

Beta 版功能

原型功能

性能改进

文档

教程

资源

保持联系以获取更新、活动信息和最新新闻