在 Intel® Xeon® 上使用 run_cpu 脚本优化 CPU 性能¶
创建于:2024 年 6 月 25 日 | 最后更新:2024 年 8 月 03 日 | 最后验证:2024 年 11 月 05 日
当在 Intel® Xeon® 可扩展处理器上执行时,有几个配置选项会影响 PyTorch 推理的性能。为了获得最佳性能,我们提供了 torch.backends.xeon.run_cpu
脚本,该脚本优化了线程和内存管理的配置。对于线程管理,该脚本配置了线程亲和性并预加载了 Intel® OMP 库。对于内存管理,它配置了 NUMA 绑定并预加载了优化的内存分配库,例如 TCMalloc 和 JeMalloc。此外,该脚本还为单实例和多实例场景中的计算资源分配提供了可调参数,帮助用户尝试针对特定工作负载优化资源利用率的协调。
您将学到什么¶
如何利用
numactl
、taskset
、Intel® OpenMP 运行时库和优化的内存分配器(如TCMalloc
和JeMalloc
)等工具来增强性能。如何配置 CPU 资源和内存管理,以最大限度地提高 Intel® Xeon® 处理器上的 PyTorch 推理性能。
优化的介绍¶
应用 NUMA 访问控制¶
在一个插槽内为用户提供越来越多的 CPU 核心是有益的,因为这提供了更大的计算资源。然而,这也导致了内存访问的竞争,这可能会导致程序因内存繁忙而停顿。为了解决这个问题,引入了非统一内存访问 (NUMA)。与统一内存访问 (UMA) 不同,在 UMA 中,所有内存对所有核心都是同等可访问的,而 NUMA 将内存组织成多个组。一定数量的内存直接连接到一个插槽的集成内存控制器,成为该插槽的本地内存。本地内存访问比远程内存访问快得多。
用户可以使用 Linux 上的 lscpu
命令获取 CPU 信息,以了解机器上有多少核心和插槽。此外,此命令还提供 NUMA 信息,例如 CPU 核心的分布。以下是在配备 Intel® Xeon® CPU Max 9480 的机器上执行 lscpu
的示例
$ lscpu
...
CPU(s): 224
On-line CPU(s) list: 0-223
Vendor ID: GenuineIntel
Model name: Intel (R) Xeon (R) CPU Max 9480
CPU family: 6
Model: 143
Thread(s) per core: 2
Core(s) per socket: 56
Socket(s): 2
...
NUMA:
NUMA node(s): 2
NUMA node0 CPU(s): 0-55,112-167
NUMA node1 CPU(s): 56-111,168-223
...
检测到两个插槽,每个插槽包含 56 个物理核心。启用超线程后,每个核心可以处理 2 个线程,从而每个插槽产生 56 个逻辑核心。因此,该机器总共有 224 个正在使用的 CPU 核心。
通常,物理核心在逻辑核心之前进行索引。在这种情况下,核心 0-55 是第一个 NUMA 节点上的物理核心,核心 56-111 是第二个 NUMA 节点上的物理核心。
逻辑核心随后进行索引:核心 112-167 对应于第一个 NUMA 节点上的逻辑核心,核心 168-223 对应于第二个 NUMA 节点上的逻辑核心。
通常,运行计算密集型工作负载的 PyTorch 程序应避免使用逻辑核心以获得良好的性能。
Linux 提供了一个名为 numactl
的工具,允许用户控制进程或共享内存的 NUMA 策略。它使用特定的 NUMA 调度或内存放置策略运行进程。如上所述,核心在一个插槽中共享高速缓存,因此避免跨插槽计算是一个好主意。从内存访问的角度来看,限制本地内存访问比访问远程内存快得多。numactl
命令应已安装在最新的 Linux 发行版中。如果缺少,您可以手动安装,例如在 Ubuntu 上,使用安装命令
$ apt-get install numactl
在 CentOS 上,您可以运行以下命令
$ yum install numactl
Linux 中的 taskset
命令是另一个强大的实用程序,允许您设置或检索正在运行的进程的 CPU 亲和性。taskset
预安装在大多数 Linux 发行版中,如果未安装,则在 Ubuntu 上,您可以使用以下命令安装它
$ apt-get install util-linux
在 CentOS 上,您可以运行以下命令
$ yum install util-linux
使用 Intel® OpenMP 运行时库¶
OpenMP 是多线程的一种实现,多线程是一种并行化方法,其中主线程(一系列连续执行的指令)派生指定数量的子线程,系统在它们之间分配任务。然后,线程并发运行,运行时环境将线程分配给不同的处理器。用户可以使用一些环境变量设置来控制 OpenMP 行为以适应其工作负载,这些设置由 OMP 库读取和执行。默认情况下,PyTorch 使用 GNU OpenMP 库 (GNU libgomp) 进行并行计算。在 Intel® 平台上,Intel® OpenMP 运行时库 (libiomp) 提供 OpenMP API 规范支持。与 libgomp 相比,它通常带来更高的性能优势。
可以使用以下命令之一安装 Intel® OpenMP 运行时库
$ pip install intel-openmp
或
$ conda install mkl
选择优化的内存分配器¶
从性能角度来看,内存分配器也起着重要作用。更高效的内存使用减少了不必要的内存分配或销毁的开销,从而加快了执行速度。从实践经验来看,对于深度学习工作负载,TCMalloc
或 JeMalloc
可以通过尽可能多地重用内存来获得比默认 malloc 操作更好的性能。
您可以通过在 Ubuntu 上运行以下命令来安装 TCMalloc
$ apt-get install google-perftools
在 CentOS 上,您可以通过运行以下命令来安装它
$ yum install gperftools
在 conda 环境中,也可以通过运行以下命令来安装它
$ conda install conda-forge::gperftools
在 Ubuntu 上,JeMalloc
可以通过以下命令安装
$ apt-get install libjemalloc2
在 CentOS 上,可以通过运行以下命令安装它
$ yum install jemalloc
在 conda 环境中,也可以通过运行以下命令来安装它
$ conda install conda-forge::jemalloc
快速入门示例命令¶
在 1 个 CPU 核心上使用 1 个线程运行单实例推理(仅使用核心 #0)
$ python -m torch.backends.xeon.run_cpu --ninstances 1 --ncores-per-instance 1 <program.py> [program_args]
在单个 CPU 节点(NUMA 插槽)上运行单实例推理
$ python -m torch.backends.xeon.run_cpu --node-id 0 <program.py> [program_args]
在 112 核 CPU 上运行多实例推理,每个实例 14 个核心,共 8 个实例
$ python -m torch.backends.xeon.run_cpu --ninstances 8 --ncores-per-instance 14 <program.py> [program_args]
在吞吐量模式下运行推理,其中每个 CPU 节点中的所有核心都设置一个实例
$ python -m torch.backends.xeon.run_cpu --throughput-mode <program.py> [program_args]
注意
此处的术语“实例”并非指云实例。此脚本作为单个进程执行,该进程调用由多个线程形成的多个“实例”。“实例”在此上下文中是一种线程组。
使用 torch.backends.xeon.run_cpu
¶
可以使用以下命令显示参数列表和使用指南
$ python -m torch.backends.xeon.run_cpu –h
usage: run_cpu.py [-h] [--multi-instance] [-m] [--no-python] [--enable-tcmalloc] [--enable-jemalloc] [--use-default-allocator] [--disable-iomp] [--ncores-per-instance] [--ninstances] [--skip-cross-node-cores] [--rank] [--latency-mode] [--throughput-mode] [--node-id] [--use-logical-core] [--disable-numactl] [--disable-taskset] [--core-list] [--log-path] [--log-file-prefix] <program> [program_args]
上面的命令具有以下位置参数
旋钮 (knob) |
帮助 |
---|---|
|
要启动的程序/脚本的完整路径。 |
|
要启动的程序/脚本的输入参数。 |
选项说明¶
通用选项设置(旋钮)包括以下内容
旋钮 (knob) |
类型 |
默认值 |
帮助 |
---|---|---|---|
|
显示帮助消息并退出。 |
||
|
将每个进程更改为将启动脚本解释为 python 模块,执行行为与“python -m”相同。 |
||
|
布尔值 |
False |
避免在程序前添加“python” - 直接执行它。当脚本不是 Python 脚本时很有用。 |
|
字符串 |
|
指定日志文件目录。默认路径为 |
|
字符串 |
“run” |
日志文件名前缀。 |
用于应用或禁用优化的旋钮有
旋钮 (knob) |
类型 |
默认值 |
帮助 |
---|---|---|---|
|
布尔值 |
False |
启用 |
|
布尔值 |
False |
启用 |
|
布尔值 |
False |
使用默认内存分配器。既不使用 |
|
布尔值 |
False |
默认情况下,如果安装了 Intel® OpenMP lib,则将使用它。设置此标志将禁用 Intel® OpenMP 的使用。 |
注意
内存分配器会影响性能。如果用户未指定所需的内存分配器,则 run_cpu
脚本将按 TCMalloc > JeMalloc > PyTorch 默认内存分配器的顺序搜索是否安装了其中任何一个,并采用第一个匹配的分配器。
用于控制实例数量和计算资源分配的旋钮有
旋钮 (knob) |
类型 |
默认值 |
帮助 |
---|---|---|---|
|
整数 |
0 |
实例数。 |
|
整数 |
0 |
每个实例使用的核心数。 |
|
整数 |
-1 |
要用于多实例的节点 ID,默认情况下将使用所有节点。 |
|
字符串 |
|
将核心列表指定为 |
|
布尔值 |
False |
默认情况下,仅使用物理核心。指定此标志启用逻辑核心使用。 |
|
布尔值 |
False |
防止工作负载在跨 NUMA 节点的内核上执行。 |
|
整数 |
-1 |
指定实例索引以分配 rank 的 ncores_per_instance;否则,ncores_per_instance 将按顺序分配给实例。 |
|
布尔值 |
False |
用于在多插槽 CPU 服务器上快速设置调用工作负载的多个实例。 |
|
布尔值 |
False |
用于快速设置以延迟模式进行基准测试,其中使用所有物理核心,每个实例 4 个核心。 |
|
布尔值 |
False |
用于快速设置以吞吐量模式进行基准测试,其中使用所有物理核心,每个实例 1 个 numa 节点。 |
|
布尔值 |
False |
默认情况下,使用 |
|
布尔值 |
False |
禁用 |
注意
此脚本将设置的环境变量包括以下内容
环境变量 |
值 |
---|---|
LD_PRELOAD |
根据您设置的旋钮,<lib>/libiomp5.so、<lib>/libjemalloc.so、<lib>/libtcmalloc.so 可能会附加到 LD_PRELOAD。 |
KMP_AFFINITY |
如果预加载了 libiomp5.so,则 KMP_AFFINITY 可以设置为 |
KMP_BLOCKTIME |
如果预加载了 libiomp5.so,则 KMP_BLOCKTIME 设置为 “1”。 |
OMP_NUM_THREADS |
|
MALLOC_CONF |
如果预加载了 libjemalloc.so,则 MALLOC_CONF 将设置为 |
请注意,该脚本尊重预先设置的环境变量。例如,如果您在运行脚本之前设置了上述环境变量,则这些变量的值将不会被脚本覆盖。
结论¶
在本教程中,我们探讨了各种高级配置和工具,旨在优化 Intel® Xeon® 可扩展处理器上的 PyTorch 推理性能。通过利用 torch.backends.xeon.run_cpu
脚本,我们演示了如何微调线程和内存管理以实现最佳性能。我们涵盖了基本概念,例如 NUMA 访问控制、优化的内存分配器(如 TCMalloc
和 JeMalloc
)以及使用 Intel® OpenMP 实现高效多线程。
此外,我们还提供了实际的命令行示例,指导您完成单实例和多实例场景的设置,确保针对特定工作负载优化资源利用率。通过理解和应用这些技术,用户可以显着提高其 PyTorch 应用程序在 Intel® Xeon® 平台上的效率和速度。
另请参阅