• 文档 >
  • TensorRT 后端用于 torch.compile
快捷方式

TensorRT 后端用于 torch.compile

本指南介绍了 Torch-TensorRT 的 torch.compile 后端:一种深度学习编译器,它使用 TensorRT 来加速各种模型的 JIT 风格工作流程。

主要功能

Torch-TensorRT torch.compile 后端的主要目标是通过将 torch.compile API 的简单性与 TensorRT 的性能相结合,实现 Just-In-Time 编译工作流程。调用 torch.compile 后端就像导入 torch_tensorrt 包并指定后端一样简单

import torch_tensorrt
...
optimized_model = torch.compile(model, backend="torch_tensorrt", dynamic=False)

注意

用户可以使用许多其他自定义选项。本指南将在后面更深入地讨论这些选项。

后端可以处理各种具有挑战性的模型结构,并提供易于使用的界面,以有效加速模型。此外,它还提供了许多自定义选项,以确保编译过程适合特定的用例。

可自定义设置

class torch_tensorrt.dynamo.CompilationSettings(enabled_precisions: ~typing.Set[~torch_tensorrt._enums.dtype] = <factory>, debug: bool = False, workspace_size: int = 0, min_block_size: int = 5, torch_executed_ops: ~typing.Collection[~typing.Union[~typing.Callable[[...], ~typing.Any], str]] = <factory>, pass_through_build_failures: bool = False, max_aux_streams: ~typing.Optional[int] = None, version_compatible: bool = False, optimization_level: ~typing.Optional[int] = None, use_python_runtime: ~typing.Optional[bool] = False, truncate_double: bool = False, use_fast_partitioner: bool = True, enable_experimental_decompositions: bool = False, device: ~torch_tensorrt._Device.Device = <factory>, require_full_compilation: bool = False, disable_tf32: bool = False, assume_dynamic_shape_support: bool = False, sparse_weights: bool = False, make_refittable: bool = False, engine_capability: ~torch_tensorrt._enums.EngineCapability = <factory>, num_avg_timing_iters: int = 1, dla_sram_size: int = 1048576, dla_local_dram_size: int = 1073741824, dla_global_dram_size: int = 536870912, dryrun: ~typing.Union[bool, str] = False, hardware_compatible: bool = False, timing_cache_path: str = '/tmp/torch_tensorrt_engine_cache/timing_cache.bin', lazy_engine_init: bool = False, cache_built_engines: bool = False, reuse_cached_engines: bool = False, use_explicit_typing: bool = False, use_fp32_acc: bool = False)[source]

Torch-TensorRT Dynamo 路径的编译设置

参数
  • enabled_precisions (Set[dpython:type]) – 可用的内核数据类型精度

  • debug (bool) – 是否打印详细的调试信息

  • workspace_size (python:int) – TRT 允许用于模块的工作区大小(0 为默认值)

  • min_block_size (python:int) – 每个 TRT 引擎块的最小操作符数量

  • torch_executed_ops (Collection[Target]) – 无论转换器覆盖范围如何,都在 Torch 中运行的操作集合

  • pass_through_build_failures (bool) – 是否在 TRT 引擎构建错误时失败 (True) 还是不失败 (False)

  • max_aux_streams (Optional[python:int]) – 每个引擎允许的最大辅助 TRT 流数量

  • version_compatible (bool) – 为引擎计划文件提供版本向前兼容性

  • optimization_level (Optional[python:int]) – 构建器优化级别 0-5,级别越高表示构建时间越长,搜索更多优化选项。TRT 默认值为 3

  • use_python_runtime (Optional[bool]) – 是否严格使用 Python 运行时或 C++ 运行时。要根据 C++ 依赖项是否存在自动选择运行时(如果可用,优先选择 C++ 运行时),请将参数保留为 None

  • truncate_double (bool) – 是否将 float64 TRT 引擎输入或权重截断为 float32

  • use_fast_partitioner (布尔值) – 是否使用快速或全局图分区系统

  • enable_experimental_decompositions (布尔值) – 是否启用所有核心 aten 分解或仅启用其中的一部分

  • device (Device) – 用于编译模型的 GPU

  • require_full_compilation (布尔值) – 是否要求图在 TensorRT 中完全编译。仅适用于 ir=”dynamo”;对 torch.compile 路径无效

  • assume_dynamic_shape_support (布尔值) – 将此设置为 true 可使转换器适用于动态和静态形状。默认值:False

  • disable_tf32 (布尔值) – 是否禁用 TRT 层的 TF32 计算

  • sparse_weights (布尔值) – 是否允许构建器使用稀疏权重

  • refit (布尔值) – 是否构建可重新拟合的引擎

  • engine_capability (trt.EngineCapability) – 将内核选择限制为安全的 GPU 内核或安全的 DLA 内核

  • num_avg_timing_iters (python:int) – 用于选择内核的平均计时迭代次数。

  • dla_sram_size (python:int) – DLA 用于在层内通信的快速软件管理 RAM。

  • dla_local_dram_size (python:int) – DLA 用于在操作之间共享中间张量数据的主机 RAM

  • dla_global_dram_size (python:int) – DLA 用于存储权重和执行元数据的主机 RAM

  • dryrun (Union[布尔值, 字符串]) – 切换“Dryrun”模式,该模式运行所有内容(包括分区),但不会转换为 TRT 引擎。打印图结构和分区性质的详细日志。如果指定了字符串路径,则可以选择将输出保存到文件

  • hardware_compatible (布尔值) – 构建与构建引擎的 GPU 以外的 GPU 架构兼容的 TensorRT 引擎(目前适用于 NVIDIA Ampere 及更新版本)

  • timing_cache_path (字符串) – 如果存在,则为计时缓存的路径;或者在编译后将保存到的位置

  • cache_built_engines (布尔值) – 是否将编译后的 TRT 引擎保存到存储中

  • reuse_cached_engines (布尔值) – 是否从存储中加载编译后的 TRT 引擎

  • use_strong_typing (布尔值) – 此标志在 TensorRT 编译中启用强类型,它尊重 Pytorch 模型中设置的精度。当用户具有混合精度图时,这很有用。

  • use_fp32_acc (布尔值) – 此选项在矩阵乘法层周围插入转换为 FP32 的节点,TensorRT 确保矩阵乘法的累加在 FP32 中进行。仅当在 enabled_precisions 中配置了 FP16 精度时才使用此选项。

自定义设置用法

import torch_tensorrt
...
optimized_model = torch.compile(model, backend="torch_tensorrt", dynamic=False,
                                options={"truncate_long_and_double": True,
                                         "enabled_precisions": {torch.float, torch.half},
                                         "debug": True,
                                         "min_block_size": 2,
                                         "torch_executed_ops": {"torch.ops.aten.sub.Tensor"},
                                         "optimization_level": 4,
                                         "use_python_runtime": False,})

注意

量化/INT8 支持计划在将来的版本中提供;目前,我们支持 FP16 和 FP32 精度层。

编译

通过将输入传递到模型来触发编译,如下所示

import torch_tensorrt
...
# Causes model compilation to occur
first_outputs = optimized_model(*inputs)

# Subsequent inference runs with the same, or similar inputs will not cause recompilation
# For a full discussion of this, see "Recompilation Conditions" below
second_outputs = optimized_model(*inputs)

编译后

编译对象可用于 Python 会话中的推理,并且会根据下面详细介绍的重新编译条件重新编译。除了通用推理之外,编译过程还可以帮助确定模型性能、当前算子覆盖范围以及序列化可行性。下面将详细介绍这些要点。

模型性能

torch.compile 返回的优化模型对于模型基准测试很有用,因为它可以自动处理编译上下文的更改,或可能需要重新编译的不同输入。在对不同分布、批大小或其他标准的输入进行基准测试时,这可以节省时间。

算子覆盖范围

编译也是确定特定模型的算子覆盖范围的有用工具。例如,以下编译命令将显示每个图的算子覆盖范围,但不会编译模型——有效地提供了一种“dryrun”机制

import torch_tensorrt
...
optimized_model = torch.compile(model, backend="torch_tensorrt", dynamic=False,
                                options={"debug": True,
                                         "min_block_size": float("inf"),})

如果模型的关键算子不受支持,请参阅 dynamo_conversion 以贡献您自己的转换器,或在此处提交问题: https://github.com/pytorch/TensorRT/issues

序列化的可行性

编译还有助于演示图中断以及特定模型序列化的可行性。例如,如果模型没有图中断并且使用 Torch-TensorRT 后端成功编译,则该模型应该可以通过 torch_tensorrt Dynamo IR 进行编译和序列化,如 使用 Torch-TensorRT 的动态形状 中所述。要确定模型中的图中断数量,torch._dynamo.explain 函数非常有用

import torch
import torch_tensorrt
...
explanation = torch._dynamo.explain(model)(*inputs)
print(f"Graph breaks: {explanation.graph_break_count}")
optimized_model = torch.compile(model, backend="torch_tensorrt", dynamic=False, options={"truncate_long_and_double": True})

动态形状支持

Torch-TensorRT torch.compile 后端当前需要针对遇到的每个新批大小重新编译,并且在使用此后端编译时,最好使用 dynamic=False 参数。完整的动态形状支持计划在将来的版本中提供。

重新编译条件

模型编译后,具有相同形状和数据类型的后续推理输入(以相同方式遍历图)将不需要重新编译。此外,每次新的重新编译都将缓存到 Python 会话的持续时间。例如,如果向模型提供了批大小为 4 和 8 的输入,导致两次重新编译,则在同一会话中进行推理时,对于将来具有这些批大小的输入将不再需要进一步的重新编译。引擎缓存序列化的支持计划在将来的版本中提供。

重新编译通常由以下两种事件之一触发:遇到不同大小的输入或以不同方式遍历模型代码的输入。当模型代码包含条件逻辑、复杂循环或数据相关形状时,可能会发生后一种情况。torch.compile 处理这两种情况下的保护,并确定何时需要重新编译。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源