快捷方式

性能调优指南

创建于: 2020年9月21日 | 最后更新于: 2024年6月12日 | 最后验证于: 2024年11月5日

作者: Szymon Migacz

性能调优指南是一系列优化和最佳实践,可以加速 PyTorch 中深度学习模型的训练和推理。所介绍的技术通常只需修改几行代码即可实现,并且可以应用于所有领域的广泛深度学习模型。

通用优化

启用异步数据加载和数据增强

torch.utils.data.DataLoader 支持在单独的子进程中进行异步数据加载和数据增强。DataLoader 的默认设置为 num_workers=0,这意味着数据加载是同步的,并在主进程中完成。因此,主训练进程必须等待数据可用才能继续执行。

设置 num_workers > 0 可以启用异步数据加载,并实现训练和数据加载之间的重叠。num_workers 的数量应根据工作负载、CPU、GPU 以及训练数据的位置进行调整。

DataLoader 接受 pin_memory 参数,默认为 False。使用 GPU 时,最好设置 pin_memory=True,这会指示 DataLoader 使用锁页内存 (pinned memory),从而实现从主机到 GPU 更快且异步的内存复制。

禁用验证或推理时的梯度计算

PyTorch 会保存涉及需要梯度的张量的所有操作的中间缓冲区。通常,验证或推理时不需要梯度。torch.no_grad() 上下文管理器可用于在指定的代码块内禁用梯度计算,这会加速执行并减少所需的内存量。torch.no_grad() 也可以用作函数装饰器。

禁用紧随批量归一化之后的卷积层的偏差

torch.nn.Conv2d() 有一个 bias 参数,默认为 TrueConv1dConv3d 也是如此)。

如果一个 nn.Conv2d 层紧随一个 nn.BatchNorm2d 层,那么卷积中的偏差是不需要的,请改用 nn.Conv2d(..., bias=False, ....)。不需要偏差是因为 BatchNorm 在第一步会减去均值,这实际上抵消了偏差的效果。

这也适用于 1d 和 3d 卷积,只要 BatchNorm(或其他归一化层)在与卷积偏差相同的维度上进行归一化。

来自 torchvision 的模型已经实现了这种优化。

使用 parameter.grad = None 代替 model.zero_grad() 或 optimizer.zero_grad()

不要调用

model.zero_grad()
# or
optimizer.zero_grad()

来将梯度归零,而是改用以下方法

for param in model.parameters():
    param.grad = None

第二个代码片段不会将每个参数的内存清零,并且随后的反向传播使用赋值而不是加法来存储梯度,这减少了内存操作的数量。

将梯度设置为 None 在数值上与将其设置为零略有不同,更多详情请参阅文档

或者,从 PyTorch 1.7 开始,调用 modeloptimizer.zero_grad(set_to_none=True)

融合操作

逐点操作,如元素级加法、乘法以及 sin()cos()sigmoid() 等数学函数,可以合并到一个单独的核函数中。这种融合有助于减少内存访问和核函数启动时间。通常,逐点操作受内存限制;PyTorch eager 模式为每个操作启动一个单独的核函数,这涉及从内存加载数据、执行操作(通常不是最耗时的步骤),以及将结果写回内存。

通过使用融合算子,只需为一个核函数启动多个逐点操作,数据只需加载和存储一次。这种效率对于激活函数、优化器和自定义 RNN 单元等尤其有利。

PyTorch 2 引入了由底层编译器 TorchInductor 支持的编译模式,该模式自动融合核函数。TorchInductor 的能力不仅限于简单的元素级操作,它还能实现对符合条件的逐点操作和归约操作进行高级融合,以优化性能。

在最简单的情况下,可以通过对函数定义应用 torch.compile 装饰器来启用融合,例如

@torch.compile
def gelu(x):
    return x * 0.5 * (1.0 + torch.erf(x / 1.41421))

更多高级用法请参阅torch.compile 入门

为计算机视觉模型启用 channels_last 内存格式

PyTorch 1.5 引入了对卷积网络的 channels_last 内存格式的支持。此格式旨在与 AMP 结合使用,以进一步加速使用 Tensor Cores 的卷积神经网络。

channels_last 的支持尚处于实验阶段,但预计适用于标准计算机视觉模型(例如 ResNet-50、SSD)。要将模型转换为 channels_last 格式,请遵循channels_last 内存格式教程。该教程包含关于转换现有模型的部分。

检查点中间缓冲区

缓冲区检查点是一种缓解模型训练内存容量负担的技术。它不是存储所有层的输入以在反向传播中计算上游梯度,而是存储少数层的输入,其他层在反向传播过程中重新计算。减少的内存需求使得可以增加批量大小,从而提高利用率。

应仔细选择检查点目标。最好不要存储计算成本小的、输出较大的层。示例目标层包括激活函数(例如 ReLUSigmoidTanh)、上/下采样以及积累深度较小的矩阵-向量操作。

PyTorch 支持原生的 torch.utils.checkpoint API 来自动执行检查点和重新计算。

禁用调试 API

许多 PyTorch API 旨在用于调试,应在常规训练运行时禁用它们

CPU 特定的优化

利用非统一内存访问 (NUMA) 控制

NUMA 或非统一内存访问是一种在数据中心机器中使用的内存布局设计,旨在利用多插槽机器中具有多个内存控制器和块的内存局部性。一般来说,所有深度学习工作负载,无论是训练还是推理,在不跨 NUMA 节点访问硬件资源时都能获得更好的性能。因此,推理可以运行多个实例,每个实例运行在一个插槽上,以提高吞吐量。对于单节点上的训练任务,建议使用分布式训练,使每个训练进程运行在一个插槽上。

在一般情况下,以下命令仅在第 N 个节点的核上执行 PyTorch 脚本,并避免跨插槽内存访问以减少内存访问开销。

numactl --cpunodebind=N --membind=N python <pytorch_script>

更详细的描述可以在这里找到。

利用 OpenMP

OpenMP 用于提高并行计算任务的性能。OMP_NUM_THREADS 是最简单的可用于加速计算的开关。它决定了用于 OpenMP 计算的线程数。CPU 亲和性设置控制工作负载如何在多个核上分布。它会影响通信开销、缓存行无效开销或页面抖动,因此正确的 CPU 亲和性设置会带来性能优势。GOMP_CPU_AFFINITYKMP_AFFINITY 决定如何将 OpenMP* 线程绑定到物理处理单元。详细信息可以在这里找到。

使用以下命令,PyTorch 将在 N 个 OpenMP 线程上运行任务。

export OMP_NUM_THREADS=N

通常,以下环境变量用于使用 GNU OpenMP 实现设置 CPU 亲和性。OMP_PROC_BIND 指定线程是否可以在处理器之间移动。将其设置为 CLOSE 会使 OpenMP 线程靠近连续位置分区中的主线程。OMP_SCHEDULE 确定 OpenMP 线程如何调度。GOMP_CPU_AFFINITY 将线程绑定到特定的 CPU。一个重要的调优参数是核绑定,它可以防止线程在多个 CPU 之间迁移,从而增强数据位置并最小化核间通信。

export OMP_SCHEDULE=STATIC
export OMP_PROC_BIND=CLOSE
export GOMP_CPU_AFFINITY="N-M"

Intel OpenMP 运行时库 (libiomp)

默认情况下,PyTorch 使用 GNU OpenMP (GNU libgomp) 进行并行计算。在 Intel 平台上,Intel OpenMP 运行时库 (libiomp) 提供了 OpenMP API 规范支持。与 libgomp 相比,它有时会带来更多的性能优势。利用环境变量 LD_PRELOAD 可以将 OpenMP 库切换到 libiomp

export LD_PRELOAD=<path>/libiomp5.so:$LD_PRELOAD

与 GNU OpenMP 中的 CPU 亲和性设置类似,libiomp 中提供了环境变量来控制 CPU 亲和性设置。KMP_AFFINITY 将 OpenMP 线程绑定到物理处理单元。KMP_BLOCKTIME 设置线程在完成并行区域执行后等待睡眠的时间(毫秒)。在大多数情况下,将 KMP_BLOCKTIME 设置为 1 或 0 会带来良好的性能。以下命令展示了 Intel OpenMP 运行时库的一些常见设置。

export KMP_AFFINITY=granularity=fine,compact,1,0
export KMP_BLOCKTIME=1

切换内存分配器

对于深度学习工作负载,JemallocTCMalloc 通过尽可能多地重用内存,可以比默认的 malloc 函数获得更好的性能。Jemalloc 是一种通用 malloc 实现,侧重于避免内存碎片和可扩展的并发支持。TCMalloc 也具有一些加速程序执行的优化。其中之一是将内存保存在缓存中以加快对常用对象的访问。即使在释放后仍然保持这些缓存,也有助于避免昂贵的系统调用,如果将来需要重新分配这些内存。

export LD_PRELOAD=<jemalloc.so/tcmalloc.so>:$LD_PRELOAD

将环境变量 LD_PRELOAD 设置为其中之一即可利用它们的优势。

使用带 TorchScript 的 oneDNN Graph 进行推理

# Only this extra line of code is required to use oneDNN Graph
torch.jit.enable_onednn_fusion(True)

oneDNN Graph 可以显著提升推理性能。它将一些计算密集型操作(如卷积、矩阵乘法)与其相邻操作融合。在 PyTorch 2.0 中,它对 Float32BFloat16 数据类型作为 beta 功能支持。oneDNN Graph 接收模型的图,并根据示例输入的形状识别可进行算子融合的候选。应使用示例输入对模型进行 JIT 跟踪。然后,在对形状与示例输入相同的输入进行几次预热迭代后,将观察到加速。以下代码片段是针对 resnet50 的示例,但它们也可以很好地扩展到将 oneDNN Graph 与自定义模型一起使用。

# sample input should be of the same shape as expected inputs
sample_input = [torch.rand(32, 3, 224, 224)]
# Using resnet50 from torchvision in this example for illustrative purposes,
# but the line below can indeed be modified to use custom models as well.
model = getattr(torchvision.models, "resnet50")().eval()
# Tracing the model with example input
traced_model = torch.jit.trace(model, sample_input)
# Invoking torch.jit.freeze
traced_model = torch.jit.freeze(traced_model)

对于 Float32 推理,使用 oneDNN Graph API 只需额外一行代码。如果您正在使用 oneDNN Graph,请避免调用 torch.jit.optimize_for_inference

with torch.no_grad():
    # a couple of warm-up runs
    traced_model(*sample_input)
    traced_model(*sample_input)
    # speedup would be observed after warm-up runs
    traced_model(*sample_input)

一旦使用样本输入对模型进行 JIT 跟踪,就可以在几次预热运行后用于推理。

# AMP for JIT mode is enabled by default, and is divergent with its eager mode counterpart
torch._C._jit_set_autocast_mode(False)

with torch.no_grad(), torch.cpu.amp.autocast(cache_enabled=False, dtype=torch.bfloat16):
    # Conv-BatchNorm folding for CNN-based Vision Models should be done with ``torch.fx.experimental.optimization.fuse`` when AMP is used
    import torch.fx.experimental.optimization as optimization
    # Please note that optimization.fuse need not be called when AMP is not used
    model = optimization.fuse(model)
    model = torch.jit.trace(model, (example_input))
    model = torch.jit.freeze(model)
    # a couple of warm-up runs
    model(example_input)
    model(example_input)
    # speedup would be observed in subsequent runs.
    model(example_input)

虽然 oneDNN Graph 的 JIT 融合器也支持使用 BFloat16 数据类型进行推理,但只有具有 AVX512_BF16 指令集架构 (ISA) 的机器才能展示 oneDNN Graph 的性能优势。以下代码片段作为使用 BFloat16 数据类型通过 oneDNN Graph 进行推理的示例

使用 PyTorch DistributedDataParallel (DDP) 功能在 CPU 上训练模型

对于小型模型或内存受限模型,如 DLRM,在 CPU 上训练也是一个不错的选择。在具有多个插槽的机器上,分布式训练可以实现高效的硬件资源利用,从而加速训练过程。Torch-ccl 使用 Intel(R) oneCCL(集体通信库)进行了优化,以实现高效的分布式深度学习训练,其中实现了 allreduceallgatheralltoall 等集体操作,并实现了 PyTorch C10D ProcessGroup API,可以作为外部 ProcessGroup 动态加载。基于 PyTorch DDP 模块中的优化,torch-ccl 加速了通信操作。除了对通信内核进行的优化之外,torch-ccl 还具有同时进行计算和通信的功能。

GPU 特定的优化

启用 Tensor Cores

Tensor Cores 是专门用于计算矩阵乘法操作的硬件,主要用于深度学习和 AI 工作负载。Tensor Cores 具有特定的精度要求,可以通过手动调整或通过自动混合精度 (AMP) API 进行调整。

特别是,张量操作利用较低精度的计算。这可以通过 torch.set_float32_matmul_precision 进行控制。默认格式设置为 'highest',使用张量的数据类型。然而,PyTorch 提供了其他精度设置:'high' 和 'medium'。这些选项优先考虑计算速度而非数值精度。”

使用 CUDA 图

# It can be enabled using
torch.compile(m, "reduce-overhead")
# or
torch.compile(m, "max-autotune")

在使用 GPU 时,工作首先必须从 CPU 发起,在某些情况下,CPU 和 GPU 之间的上下文切换可能导致资源利用率低下。CUDA 图是一种将计算保持在 GPU 内部的方法,而无需支付核函数启动和主机同步的额外开销。

CUDA 图的支持正在开发中,它的使用可能会增加设备内存消耗,并且某些模型可能无法编译。

启用 cuDNN 自动调优器

NVIDIA cuDNN 支持多种算法来计算卷积。自动调优器运行一个简短的基准测试,并为给定输入大小在给定硬件上选择性能最佳的核函数。

torch.backends.cudnn.benchmark = True
  • 对于卷积网络(目前不支持其他类型),在启动训练循环之前,通过设置以下参数启用 cuDNN 自动调优器

  • 自动调优器的决策可能是不确定的;不同的运行可能选择不同的算法。更多详情请参阅PyTorch:可重复性

避免不必要的 CPU-GPU 同步

避免不必要的同步,尽量让 CPU 运行在加速器之前,以确保加速器工作队列中包含足够多的操作。

如果可能,请避免需要同步的操作,例如

  • print(cuda_tensor)

  • cuda_tensor.item()

  • 内存拷贝:tensor.cuda()cuda_tensor.cpu() 以及等价的 tensor.to(device) 调用

  • cuda_tensor.nonzero()

  • 依赖于 CUDA 张量操作结果的 Python 控制流,例如 if (cuda_tensor != 0).all()

直接在目标设备上创建张量

与其调用 torch.rand(size).cuda() 生成随机张量,不如直接在目标设备上生成:torch.rand(size, device='cuda')

这适用于所有创建新张量并接受 device 参数的函数:torch.rand()torch.zeros()torch.full() 等等。

使用混合精度和 AMP

混合精度利用 Tensor Cores,并在 Volta 和更新的 GPU 架构上提供高达 3 倍的总体加速。要使用 Tensor Cores,需要启用 AMP,并且矩阵/张量维度应满足调用使用 Tensor Cores 的内核的要求。

要使用 Tensor Cores

  • 将大小设置为 8 的倍数(以映射到 Tensor Cores 的维度)

    • 有关更多详细信息和特定于层类型的指南,请参阅 深度学习性能文档

    • 如果层大小是根据其他参数而非固定值推导出来的,仍然可以显式地填充,例如 NLP 模型中的词汇表大小

  • 启用 AMP

处理变长输入时预分配内存

语音识别或 NLP 模型通常使用变长序列的输入张量进行训练。变长输入可能对 PyTorch 缓存分配器造成问题,导致性能下降或意外的内存不足错误。如果一个短序列长度的批次后面紧跟着一个长序列长度的批次,那么 PyTorch 会被迫释放前一次迭代的中间缓冲区并重新分配新的缓冲区。这个过程非常耗时,并导致缓存分配器碎片化,可能导致内存不足错误。

典型的解决方案是实现预分配。它包含以下步骤:

  1. 生成一个具有最大序列长度的(通常是随机的)输入批次(最大长度对应于训练数据集中的最大长度或某个预定义阈值)

  2. 使用生成的批次执行一次前向和后向传播,不要执行优化器或学习率调度器;这一步预分配最大大小的缓冲区,这些缓冲区可以在后续训练迭代中重用

  3. 梯度清零

  4. 继续常规训练

分布式优化

使用高效的数据并行后端

PyTorch 有两种实现数据并行训练的方式

DistributedDataParallel 在多 GPU 扩展方面提供了更好的性能。更多信息请参阅 PyTorch 文档中 CUDA 最佳实践的相关部分

如果使用 DistributedDataParallel 和梯度累积训练,请跳过不必要的 all-reduce

默认情况下,torch.nn.parallel.DistributedDataParallel 在每次后向传播后执行梯度 all-reduce,以计算所有参与训练的 workers 的平均梯度。如果训练使用 N 步的梯度累积,那么不必在每次训练步骤后都进行 all-reduce,只需在最后一次调用 backward 后、执行优化器之前执行 all-reduce 即可。

DistributedDataParallel 提供了 no_sync() 上下文管理器,用于禁用特定迭代的梯度 all-reduce。no_sync() 应该应用于梯度累积的前 N-1 次迭代,最后一次迭代应遵循默认执行并执行所需的梯度 all-reduce。

如果使用 DistributedDataParallel(find_unused_parameters=True),请确保构造函数中层以及执行期间层的顺序匹配

torch.nn.parallel.DistributedDataParallel 设置 find_unused_parameters=True 时,会使用模型构造函数中层和参数的顺序来为 DistributedDataParallel 的梯度 all-reduce 构建桶。DistributedDataParallel 会将 all-reduce 与后向传播重叠。特定桶的 all-reduce 仅在该桶中所有参数的梯度都可用时异步触发。

为了最大化重叠量,模型构造函数中的顺序应大致与执行期间的顺序匹配。如果顺序不匹配,则整个桶的 all-reduce 会等待最后一个到达的梯度,这可能会减少后向传播和 all-reduce 之间的重叠,all-reduce 可能会暴露出来,从而减慢训练速度。

DistributedDataParallel 设置 find_unused_parameters=False(这是默认设置)时,依赖于根据后向传播期间遇到的操作顺序自动形成桶。使用 find_unused_parameters=False 时,无需重新排列层或参数即可获得最佳性能。

在分布式设置中进行负载均衡

处理序列数据(语音识别、翻译、语言模型等)的模型通常会出现负载不均衡。如果一个设备接收到的数据批次的序列长度比其余设备的序列长度都长,那么所有设备都会等待最后一个完成工作的 worker。在分布式设置中,后向传播在使用 DistributedDataParallel 后端时充当隐式同步点。

有多种方法可以解决负载均衡问题。核心思想是在每个全局批次中尽可能均匀地将工作负载分配给所有 workers。例如,Transformer 通过构建具有近似恒定数量 token(和可变数量序列)的批次来解决不均衡问题,其他模型则通过将具有相似序列长度的样本分桶,甚至按序列长度对数据集进行排序来解决不均衡问题。

脚本总运行时间: ( 0 分钟 0.000 秒)

由 Sphinx-Gallery 生成的图库

文档

访问 PyTorch 全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源