CPU 线程和 TorchScript 推断¶

PyTorch 允许在 TorchScript 模型推断期间使用多个 CPU 线程。下图显示了典型应用程序中会遇到的不同级别的并行性

../_images/cpu_threading_torchscript_inference.svg

一个或多个推断线程对给定输入执行模型的前向传递。每个推断线程调用 JIT 解释器，该解释器逐个内联执行模型的运算。模型可以使用 fork TorchScript 原语启动异步任务。一次分叉多个操作将产生并行执行的任务。fork 运算符返回一个 Future 对象，该对象可用于稍后同步，例如

@torch.jit.script
def compute_z(x):
    return torch.mm(x, self.w_z)

@torch.jit.script
def forward(x):
    # launch compute_z asynchronously:
    fut = torch.jit._fork(compute_z, x)
    # execute the next operation in parallel to compute_z:
    y = torch.mm(x, self.w_y)
    # wait for the result of compute_z:
    z = torch.jit._wait(fut)
    return y + z

PyTorch 为运算间并行性使用一个线程池，此线程池由应用程序进程中分叉的所有推断任务共享。

除了运算间并行性之外，PyTorch 还可以利用运算中的多个线程（“运算内并行性”）。这在许多情况下都很有用，包括对大型张量的逐元素运算、卷积、GEMM、嵌入查找等。

构建选项¶

PyTorch 使用内部 ATen 库来实现运算。除此之外，PyTorch 还可以构建对外部库（例如 MKL 和 MKL-DNN）的支持，以加快 CPU 上的计算速度。

ATen、MKL 和 MKL-DNN 支持运算内并行性，并依赖以下并行化库来实现它

OpenMP - 一种标准（和一个库，通常随编译器一起提供），广泛用于外部库中；
TBB - 一个较新的并行化库，针对基于任务的并行化和并发环境进行了优化。

OpenMP 历来被大量库使用。它以相对易于使用以及对基于循环的并行化和其他基本元素的支持而闻名。

TBB 在外部库中的使用程度较低，但同时针对并发环境进行了优化。PyTorch 的 TBB 后端保证有一个独立的、单一的、每个进程的内部操作线程池，由应用程序中运行的所有操作使用。

根据用例，人们可能会发现一个或另一个并行化库更适合他们的应用程序。

PyTorch 允许在构建时使用以下构建选项选择 ATen 和其他库使用的并行化后端

库	构建选项	值	备注
ATen	`ATEN_THREADING`	`OMP`（默认），`TBB`
MKL	`MKL_THREADING`	（相同）	要启用 MKL，请使用 `BLAS=MKL`
MKL-DNN	`MKLDNN_CPU_RUNTIME`	（相同）	要启用 MKL-DNN，请使用 `USE_MKLDNN=1`

建议不要在一次构建中混合使用 OpenMP 和 TBB。

上述任何 TBB 值都需要 USE_TBB=1 构建设置（默认：OFF）。OpenMP 并行化需要一个单独的设置 USE_OPENMP=1（默认：ON）。

运行时 API¶

以下 API 用于控制线程设置

并行化类型

设置

备注

内部操作并行化

at::set_num_interop_threads，at::get_num_interop_threads（C++）

set_num_interop_threads，get_num_interop_threads（Python，torch 模块）

默认线程数：CPU 核心数。

操作内并行

at::set_num_threads、at::get_num_threads (C++) set_num_threads、get_num_threads (Python，torch 模块)

环境变量：OMP_NUM_THREADS 和 MKL_NUM_THREADS

对于操作内并行设置，at::set_num_threads、torch.set_num_threads 始终优先于环境变量，MKL_NUM_THREADS 变量优先于 OMP_NUM_THREADS。

调整线程数¶

以下简单脚本展示了矩阵乘法的运行时间如何随线程数而变化

import timeit
runtimes = []
threads = [1] + [t for t in range(2, 49, 2)]
for t in threads:
    torch.set_num_threads(t)
    r = timeit.timeit(setup = "import torch; x = torch.randn(1024, 1024); y = torch.randn(1024, 1024)", stmt="torch.mm(x, y)", number=100)
    runtimes.append(r)
# ... plotting (threads, runtimes) ...

在具有 24 个物理 CPU 内核的系统上运行脚本（基于 Xeon E5-2680、MKL 和 OpenMP 的构建）会产生以下运行时间

调整操作内和操作间线程数时应考虑以下事项

在选择线程数时，需要避免过度认购（使用过多线程会导致性能下降）。例如，在使用大型应用程序线程池或严重依赖操作间并行的应用程序中，可能会发现禁用操作内并行是一个可行的选项（即调用 set_num_threads(1)）；
在典型应用程序中，可能会遇到延迟（处理推理请求所花费的时间）和吞吐量（每单位时间完成的工作量）之间的权衡。调整线程数可以成为以某种方式调整此权衡的有用工具。例如，在延迟关键型应用程序中，可能需要增加操作内线程数以尽可能快地处理每个请求。同时，操作的并行实现可能会增加额外的开销，从而增加每个请求完成的工作量，从而降低整体吞吐量。

警告

OpenMP 无法保证应用程序中将使用单个每进程操作内线程池。相反，两个不同的应用程序或操作间线程可能会为操作内工作使用不同的 OpenMP 线程池。这可能会导致应用程序使用大量线程。在 OpenMP 案例中，需要特别注意调整线程数以避免多线程应用程序中的过度认购。

注意

预构建的 PyTorch 版本使用 OpenMP 支持进行编译。

注意

parallel_info 实用程序打印有关线程设置的信息，可用于调试。类似的输出也可以通过 torch.__config__.parallel_info() 调用在 Python 中获取。

CPU 线程和 TorchScript 推断¶

构建选项¶

运行时 API¶

调整线程数¶

文档

教程

资源