自动混合精度包 - torch.amp¶
torch.amp
提供了混合精度的便捷方法,其中一些操作使用 torch.float32
(float
) 数据类型,而其他操作使用精度较低的浮点数据类型 (lower_precision_fp
):torch.float16
(half
) 或 torch.bfloat16
。一些运算,如线性层和卷积,在 lower_precision_fp
中速度快得多。其他运算,如归约,通常需要 float32
的动态范围。混合精度尝试将每个运算与适当的数据类型匹配。
通常,“使用 torch.float16
数据类型的自动混合精度训练”将使用 torch.autocast
和 torch.amp.GradScaler
结合使用,如 自动混合精度示例 和 自动混合精度食谱 中所示。但是,torch.autocast
和 torch.GradScaler
是模块化的,如果需要,可以分别使用。如 torch.autocast
的 CPU 示例部分所示,“使用 torch.bfloat16
数据类型的 CPU 上的自动混合精度训练/推理”仅使用 torch.autocast
。
警告
torch.cuda.amp.autocast(args...)
和 torch.cpu.amp.autocast(args...)
将被弃用。请改用 torch.autocast("cuda", args...)
或 torch.autocast("cpu", args...)
。 torch.cuda.amp.GradScaler(args...)
和 torch.cpu.amp.GradScaler(args...)
将被弃用。请改用 torch.GradScaler("cuda", args...)
或 torch.GradScaler("cpu", args...)
。
torch.autocast
和 torch.cpu.amp.autocast
是在 1.10 版本中新增的。
自动转换¶
- torch.amp.autocast_mode.is_autocast_available(device_type)[源代码]¶
返回一个布尔值,指示是否可以在
device_type
上使用自动转换。- 参数
device_type (str) – 要使用的设备类型。可能的值有:‘cuda’、‘cpu’、‘xpu’ 等等。该类型与
torch.device
的 type 属性相同。因此,可以使用 Tensor.device.type 获取张量的设备类型。- 返回类型
- class torch.autocast(device_type, dtype=None, enabled=True, cache_enabled=None)[source]¶
autocast
的实例可以作为上下文管理器或装饰器,允许您的脚本的区域以混合精度运行。在这些区域中,操作将在由 autocast 选择的特定于操作的数据类型中运行,以提高性能,同时保持准确性。有关详细信息,请参阅 Autocast 操作参考。
进入启用 autocast 的区域时,张量可以是任何类型。在使用自动转换时,您不应该在模型或输入上调用
half()
或bfloat16()
。autocast
应该只包装网络的正向传递(包括损失计算)。不建议在 autocast 下进行反向传递。反向操作在 autocast 用于对应正向操作的相同类型中运行。CUDA 设备示例
# Creates model and optimizer in default precision model = Net().cuda() optimizer = optim.SGD(model.parameters(), ...) for input, target in data: optimizer.zero_grad() # Enables autocasting for the forward pass (model + loss) with torch.autocast(device_type="cuda"): output = model(input) loss = loss_fn(output, target) # Exits the context manager before backward() loss.backward() optimizer.step()
有关在更复杂场景(例如,梯度惩罚、多个模型/损失、自定义自动梯度函数)中使用(以及梯度缩放)的示例,请参阅 自动混合精度示例。
autocast
也可以用作装饰器,例如,在模型的forward
方法上class AutocastModel(nn.Module): ... @torch.autocast(device_type="cuda") def forward(self, input): ...
在启用 autocast 的区域中生成的浮点张量可能是
float16
。返回到禁用 autocast 的区域后,将它们与不同数据类型的浮点张量一起使用可能会导致类型不匹配错误。如果是这样,请将 autocast 区域中生成的张量转换回float32
(或其他所需数据类型)。如果来自 autocast 区域的张量已经是float32
,则转换将成为一个无操作,并且不会产生任何额外的开销。CUDA 示例# Creates some tensors in default dtype (here assumed to be float32) a_float32 = torch.rand((8, 8), device="cuda") b_float32 = torch.rand((8, 8), device="cuda") c_float32 = torch.rand((8, 8), device="cuda") d_float32 = torch.rand((8, 8), device="cuda") with torch.autocast(device_type="cuda"): # torch.mm is on autocast's list of ops that should run in float16. # Inputs are float32, but the op runs in float16 and produces float16 output. # No manual casts are required. e_float16 = torch.mm(a_float32, b_float32) # Also handles mixed input types f_float16 = torch.mm(d_float32, e_float16) # After exiting autocast, calls f_float16.float() to use with d_float32 g_float32 = torch.mm(d_float32, f_float16.float())
CPU 训练示例
# Creates model and optimizer in default precision model = Net() optimizer = optim.SGD(model.parameters(), ...) for epoch in epochs: for input, target in data: optimizer.zero_grad() # Runs the forward pass with autocasting. with torch.autocast(device_type="cpu", dtype=torch.bfloat16): output = model(input) loss = loss_fn(output, target) loss.backward() optimizer.step()
CPU 推理示例
# Creates model in default precision model = Net().eval() with torch.autocast(device_type="cpu", dtype=torch.bfloat16): for input in data: # Runs the forward pass with autocasting. output = model(input)
带有 Jit 跟踪的 CPU 推理示例
class TestModel(nn.Module): def __init__(self, input_size, num_classes): super().__init__() self.fc1 = nn.Linear(input_size, num_classes) def forward(self, x): return self.fc1(x) input_size = 2 num_classes = 2 model = TestModel(input_size, num_classes).eval() # For now, we suggest to disable the Jit Autocast Pass, # As the issue: https://github.com/pytorch/pytorch/issues/75956 torch._C._jit_set_autocast_mode(False) with torch.cpu.amp.autocast(cache_enabled=False): model = torch.jit.trace(model, torch.randn(1, input_size)) model = torch.jit.freeze(model) # Models Run for _ in range(3): model(torch.randn(1, input_size))
在启用 autocast 的区域中出现类型不匹配错误是错误;如果您观察到这种情况,请提交问题。
autocast(enabled=False)
子区域可以嵌套在启用 autocast 的区域中。局部禁用 autocast 可能很有用,例如,如果您想强制子区域以特定dtype
运行。禁用 autocast 使您能够显式控制执行类型。在子区域中,来自周围区域的输入应在使用前转换为dtype
# Creates some tensors in default dtype (here assumed to be float32) a_float32 = torch.rand((8, 8), device="cuda") b_float32 = torch.rand((8, 8), device="cuda") c_float32 = torch.rand((8, 8), device="cuda") d_float32 = torch.rand((8, 8), device="cuda") with torch.autocast(device_type="cuda"): e_float16 = torch.mm(a_float32, b_float32) with torch.autocast(device_type="cuda", enabled=False): # Calls e_float16.float() to ensure float32 execution # (necessary because e_float16 was created in an autocasted region) f_float32 = torch.mm(c_float32, e_float16.float()) # No manual casts are required when re-entering the autocast-enabled region. # torch.mm again runs in float16 and produces float16 output, regardless of input types. g_float16 = torch.mm(d_float32, f_float32)
autocast 状态是线程本地的。如果您希望它在新线程中启用,则必须在该线程中调用上下文管理器或装饰器。这会影响
torch.nn.DataParallel
和torch.nn.parallel.DistributedDataParallel
在与每个进程使用多个 GPU 时(请参阅 使用多个 GPU)。- 参数
device_type (str, required) – 要使用的设备类型。可能的值包括:‘cuda’、‘cpu’、‘xpu’ 和 ‘hpu’。该类型与
torch.device
的 type 属性相同。因此,您可以使用 Tensor.device.type 获取张量的设备类型。enabled (bool, optional) – 是否在该区域启用自动转换。默认值:
True
dtype (torch_dtype, optional) – 在自动转换中运行的操作的数据类型。如果
dtype
为None
,它将使用由get_autocast_dtype()
给出的默认值(CUDA 为torch.float16
,CPU 为torch.bfloat16
)。默认值:None
cache_enabled (bool, optional) – 是否启用 autocast 内部的权重缓存。默认值:
True
- torch.amp.custom_fwd(fwd=None, *, device_type, cast_inputs=None)[source]¶
为自定义自动梯度函数的
forward
方法创建助手装饰器。自动梯度函数是
torch.autograd.Function
的子类。有关详细信息,请参阅 示例页面。- 参数
device_type (str) – 要使用的设备类型。‘cuda’、‘cpu’、‘xpu’ 等等。该类型与
torch.device
的 type 属性相同。因此,您可以使用 Tensor.device.type 获取张量的设备类型。cast_inputs (
torch.dtype
或 None,可选,默认值为 None) – 如果不是None
,当forward
在启用 autocast 的区域中运行时,将传入的浮点张量转换为目标数据类型(非浮点张量不受影响),然后在禁用 autocast 的情况下执行forward
。如果为None
,则forward
的内部操作将使用当前 autocast 状态执行。
注意
如果装饰的
forward
在禁用 autocast 的区域之外被调用,则custom_fwd
将成为无操作,并且cast_inputs
将不会有任何影响。
- torch.amp.custom_bwd(bwd=None, *, device_type)[source]¶
为自定义自动梯度函数的反向方法创建助手装饰器。
自动梯度函数是
torch.autograd.Function
的子类。确保backward
使用与forward
相同的 autocast 状态执行。有关详细信息,请参阅 示例页面。- 参数
device_type (str) – 要使用的设备类型。‘cuda’、‘cpu’、‘xpu’ 等等。该类型与
torch.device
的 type 属性相同。因此,您可以使用 Tensor.device.type 获取张量的设备类型。
- class torch.cuda.amp.autocast(enabled=True, dtype=torch.float16, cache_enabled=True)[source]¶
参见
torch.autocast
。torch.cuda.amp.autocast(args...)
已弃用。请改用torch.amp.autocast("cuda", args...)
。
- torch.cuda.amp.custom_fwd(fwd=None, *, cast_inputs=None)[source]¶
torch.cuda.amp.custom_fwd(args...)
已弃用。请改用torch.amp.custom_fwd(args..., device_type='cuda')
。
- torch.cuda.amp.custom_bwd(bwd)[source]¶
torch.cuda.amp.custom_bwd(args...)
已弃用。请改用torch.amp.custom_bwd(args..., device_type='cuda')
。
- class torch.cpu.amp.autocast(enabled=True, dtype=torch.bfloat16, cache_enabled=True)[source]¶
请参阅
torch.autocast
。torch.cpu.amp.autocast(args...)
已被弃用。请使用torch.amp.autocast("cpu", args...)
代替。
梯度缩放¶
如果特定操作的正向传播具有 float16
输入,则该操作的反向传播将生成 float16
梯度。具有较小幅度的梯度值可能无法在 float16
中表示。这些值将被清零(“下溢”),因此对应参数的更新将丢失。
为了防止下溢,“梯度缩放”将网络的损失(或损失)乘以一个比例因子,并在缩放后的损失(或损失)上调用反向传播。然后,反向流过网络的梯度将按相同的因子进行缩放。换句话说,梯度值具有更大的幅度,因此它们不会被清零。
每个参数的梯度(.grad
属性)在优化器更新参数之前应该被取消缩放,这样比例因子就不会干扰学习率。
注意
AMP/fp16 可能不适用于所有模型!例如,大多数 bf16 预训练模型无法在 fp16 的最大 65504 的数值范围内运行,会导致梯度溢出而不是下溢。在这种情况下,比例因子可能会下降到 1 以下,试图将梯度调整为 fp16 动态范围内可表示的数字。虽然人们可能期望比例因子始终大于 1,但我们的 GradScaler 并没有对此做出保证以保持性能。如果您在使用 AMP/fp16 运行时在损失或梯度中遇到 NaN,请验证您的模型是否兼容。
自动转换操作参考¶
操作资格¶
在 float64
或非浮点数据类型中运行的操作不符合条件,无论是否启用自动转换,它们都将在这些类型中运行。
只有非就地操作和张量方法符合条件。在启用自动转换的区域中允许就地变体和显式提供 out=...
张量的调用,但不会进行自动转换。例如,在启用自动转换的区域中,a.addmm(b, c)
可以自动转换,但 a.addmm_(b, c)
和 a.addmm(b, c, out=d)
不行。为了获得最佳性能和稳定性,在启用自动转换的区域中优先使用非就地操作。
使用显式 dtype=...
参数调用的操作不符合条件,并且将生成符合 dtype
参数的输出。
CUDA 操作特定行为¶
以下列表描述了在启用自动转换的区域中符合条件的操作的行为。无论这些操作是作为 torch.nn.Module
的一部分、作为函数还是作为 torch.Tensor
方法被调用,它们始终会进行自动转换。如果函数在多个命名空间中公开,那么无论命名空间如何,它们都会进行自动转换。
以下未列出的操作不会进行自动转换。它们在由其输入定义的类型中运行。但是,如果未列出的操作位于自动转换操作的下游,自动转换可能仍然会更改它们运行的类型。
如果操作未列出,我们假设它在 float16
中数值稳定。如果您认为未列出的操作在 float16
中数值不稳定,请提交问题。
可以自动转换为 float16
的 CUDA 操作¶
__matmul__
, addbmm
, addmm
, addmv
, addr
, baddbmm
, bmm
, chain_matmul
, multi_dot
, conv1d
, conv2d
, conv3d
, conv_transpose1d
, conv_transpose2d
, conv_transpose3d
, GRUCell
, linear
, LSTMCell
, matmul
, mm
, mv
, prelu
, RNNCell
可以自动转换为 float32
的 CUDA 操作¶
__pow__
, __rdiv__
, __rpow__
, __rtruediv__
, acos
, asin
, binary_cross_entropy_with_logits
, cosh
, cosine_embedding_loss
, cdist
, cosine_similarity
, cross_entropy
, cumprod
, cumsum
, dist
, erfinv
, exp
, expm1
, group_norm
, hinge_embedding_loss
, kl_div
, l1_loss
, layer_norm
, log
, log_softmax
, log10
, log1p
, log2
, margin_ranking_loss
, mse_loss
, multilabel_margin_loss
, multi_margin_loss
, nll_loss
, norm
, normalize
, pdist
, poisson_nll_loss
, pow
, prod
, reciprocal
, rsqrt
, sinh
, smooth_l1_loss
, soft_margin_loss
, softmax
, softmin
, softplus
, sum
, renorm
, tan
, triplet_margin_loss
提升到最宽输入类型的 CUDA 操作¶
这些操作不需要特定数据类型来保证稳定性,但会接受多个输入并要求这些输入的数据类型一致。如果所有输入都是 float16
,则操作将在 float16
中运行。如果任何输入是 float32
,则自动转换会将所有输入强制转换为 float32
并在 float32
中运行操作。
addcdiv
, addcmul
, atan2
, bilinear
, cross
, dot
, grid_sample
, index_put
, scatter_add
, tensordot
这里未列出的一些操作(例如,add
之类的二元运算)会在不经过自动转换的情况下,直接对输入进行提升。如果输入是 float16
和 float32
的混合,这些操作将在 float32
中运行并生成 float32
输出,无论自动转换是否启用。
推荐使用 binary_cross_entropy_with_logits
而不是 binary_cross_entropy
¶
torch.nn.functional.binary_cross_entropy()
(以及将它包装起来的 torch.nn.BCELoss
)的反向传播可能会生成在 float16
中无法表示的梯度。在启用自动转换的区域中,正向输入可能是 float16
,这意味着反向梯度必须在 float16
中可表示(将正向输入从 float16
转换为 float32
的自动转换没有帮助,因为此转换必须在反向传播中被逆转)。因此,binary_cross_entropy
和 BCELoss
在启用自动转换的区域中会引发错误。
许多模型在二元交叉熵层之前使用 sigmoid 层。在这种情况下,请使用 torch.nn.functional.binary_cross_entropy_with_logits()
或 torch.nn.BCEWithLogitsLoss
将这两个层合并。 binary_cross_entropy_with_logits
和 BCEWithLogits
可以安全地进行自动转换。
XPU 操作特定行为(实验性)¶
以下列表描述了在启用自动转换的区域中符合条件的操作的行为。无论这些操作是作为 torch.nn.Module
的一部分、作为函数还是作为 torch.Tensor
方法被调用,它们始终会进行自动转换。如果函数在多个命名空间中公开,那么无论命名空间如何,它们都会进行自动转换。
以下未列出的操作不会进行自动转换。它们在由其输入定义的类型中运行。但是,如果未列出的操作位于自动转换操作的下游,自动转换可能仍然会更改它们运行的类型。
如果操作未列出,我们假设它在 float16
中数值稳定。如果您认为未列出的操作在 float16
中数值不稳定,请提交问题。
可以自动转换为 float16
的 XPU 操作¶
addbmm
, addmm
, addmv
, addr
, baddbmm
, bmm
, chain_matmul
, multi_dot
, conv1d
, conv2d
, conv3d
, conv_transpose1d
, conv_transpose2d
, conv_transpose3d
, GRUCell
, linear
, LSTMCell
, matmul
, mm
, mv
, RNNCell
可以自动转换为 float32
的 XPU 操作¶
__pow__
, __rdiv__
, __rpow__
, __rtruediv__
, binary_cross_entropy_with_logits
, cosine_embedding_loss
, cosine_similarity
, cumsum
, dist
, exp
, group_norm
, hinge_embedding_loss
, kl_div
, l1_loss
, layer_norm
, log
, log_softmax
, margin_ranking_loss
, nll_loss
, normalize
, poisson_nll_loss
, pow
, reciprocal
, rsqrt
, soft_margin_loss
, softmax
, softmin
, sum
, triplet_margin_loss
提升到最宽输入类型的 XPU 操作¶
这些操作不需要特定数据类型来保证稳定性,但会接受多个输入并要求这些输入的数据类型一致。如果所有输入都是 float16
,则操作将在 float16
中运行。如果任何输入是 float32
,则自动转换会将所有输入强制转换为 float32
并在 float32
中运行操作。
bilinear
, cross
, grid_sample
, index_put
, scatter_add
, tensordot
这里未列出的一些操作(例如,add
之类的二元运算)会在不经过自动转换的情况下,直接对输入进行提升。如果输入是 float16
和 float32
的混合,这些操作将在 float32
中运行并生成 float32
输出,无论自动转换是否启用。
CPU 操作特定行为¶
以下列表描述了在启用自动转换的区域中符合条件的操作的行为。无论这些操作是作为 torch.nn.Module
的一部分、作为函数还是作为 torch.Tensor
方法被调用,它们始终会进行自动转换。如果函数在多个命名空间中公开,那么无论命名空间如何,它们都会进行自动转换。
以下未列出的操作不会进行自动转换。它们在由其输入定义的类型中运行。但是,如果未列出的操作位于自动转换操作的下游,自动转换可能仍然会更改它们运行的类型。
如果未列出操作,我们假设它在 bfloat16
中数值稳定。如果您认为未列出的操作在 bfloat16
中数值不稳定,请提交问题。
可以自动转换为 bfloat16
的 CPU 操作¶
conv1d
, conv2d
, conv3d
, bmm
, mm
, baddbmm
, addmm
, addbmm
, linear
, matmul
, _convolution
可以自动转换为 float32
的 CPU 操作¶
conv_transpose1d
, conv_transpose2d
, conv_transpose3d
, avg_pool3d
, binary_cross_entropy
, grid_sampler
, grid_sampler_2d
, _grid_sampler_2d_cpu_fallback
, grid_sampler_3d
, polar
, prod
, quantile
, nanquantile
, stft
, cdist
, trace
, view_as_complex
, cholesky
, cholesky_inverse
, cholesky_solve
, inverse
, lu_solve
, orgqr
, inverse
, ormqr
, pinverse
, max_pool3d
, max_unpool2d
, max_unpool3d
, adaptive_avg_pool3d
, reflection_pad1d
, reflection_pad2d
, replication_pad1d
, replication_pad2d
, replication_pad3d
, mse_loss
, ctc_loss
, kl_div
, multilabel_margin_loss
, fft_fft
, fft_ifft
, fft_fft2
, fft_ifft2
, fft_fftn
, fft_ifftn
, fft_rfft
, fft_irfft
, fft_rfft2
, fft_irfft2
, fft_rfftn
, fft_irfftn
, fft_hfft
, fft_ihfft
, linalg_matrix_norm
, linalg_cond
, linalg_matrix_rank
, linalg_solve
, linalg_cholesky
, linalg_svdvals
, linalg_eigvals
, linalg_eigvalsh
, linalg_inv
, linalg_householder_product
, linalg_tensorinv
, linalg_tensorsolve
, fake_quantize_per_tensor_affine
, eig
, geqrf
, lstsq
, _lu_with_info
, qr
, solve
, svd
, symeig
, triangular_solve
, fractional_max_pool2d
, fractional_max_pool3d
, adaptive_max_pool3d
, multilabel_margin_loss_forward
, linalg_qr
, linalg_cholesky_ex
, linalg_svd
, linalg_eig
, linalg_eigh
, linalg_lstsq
, linalg_inv_ex
CPU 操作将提升至最宽的输入类型¶
这些操作不需要特定的数据类型来确保稳定性,但接受多个输入并要求输入的数据类型匹配。如果所有输入都是 bfloat16
,则操作在 bfloat16
中运行。如果任何输入是 float32
,则自动转换会将所有输入强制转换为 float32
并以 float32
运行该操作。
cat
, stack
, index_copy
此处未列出的一些操作(例如,二进制操作,如 add
)会原生提升输入而无需自动转换的干预。如果输入是 bfloat16
和 float32
的混合,则这些操作在 float32
中运行并生成 float32
输出,无论是否启用了自动转换。