快捷方式

torch_tensorrt.runtime

函数

torch_tensorrt.runtime.set_multi_device_safe_mode(mode: bool) _MultiDeviceSafeModeContextManager[源代码]

将运行时(仅限 Python 且为默认值)设置为多设备安全模式

如果系统上有多个设备可用,为了确保运行时安全执行,需要进行其他设备检查。这些检查会影响性能,因此是可选的。用于抑制有关在多设备上下文中不安全运行的警告。

参数

mode (bool) – 启用 (True) 或禁用 (False) 多设备检查

示例

with torch_tensorrt.runtime.set_multi_device_safe_mode(True):
    results = trt_compiled_module(*inputs)

class torch_tensorrt.runtime.TorchTensorRTModule(**kwargs: Dict[str, Any])[源代码]

TorchTensorRTModule 是一个 PyTorch 模块,它包含任意 TensorRT 引擎。

此模块由 Torch-TensorRT 运行时支持,并且与 FX/Python 部署(只需将 import torch_tensorrt 作为应用程序的一部分)以及 TorchScript/C++ 部署完全兼容,因为 TorchTensorRTModule 可以传递给 torch.jit.trace 然后保存。

forward 函数很简单 forward(*args: torch.Tensor) -> Tuple[torch.Tensor],其中内部实现为 return Tuple(torch.ops.tensorrt.execute_engine(list(inputs), self.engine))

> 注意:TorchTensorRTModule 仅支持使用显式批次构建的引擎

变量
  • name (str) – 模块名称(用于更轻松地调试)

  • engine (torch.classes.tensorrt.Engine) – Torch-TensorRT TensorRT 引擎实例,管理 [去] 序列化、设备配置、分析

  • input_binding_names (List[str]) – 输入 TensorRT 引擎绑定名称列表,其顺序与传递给 TRT 模块的顺序相同

  • output_binding_names (List[str]) – 输出 TensorRT 引擎绑定名称列表,其顺序应与返回的顺序相同

__init__(**kwargs: Dict[str, Any]) Any

初始化内部模块状态,由 nn.Module 和 ScriptModule 共享。

forward(**kwargs: Dict[str, Any]) Any

定义每次调用时执行的计算。

应由所有子类覆盖。

注意

虽然前向传递的配方需要在此函数中定义,但应该之后调用 Module 实例,而不是此函数,因为前者负责运行注册的钩子,而后者则静默地忽略它们。

get_extra_state(**kwargs: Dict[str, Any]) Any

返回要包含在模块的 state_dict 中的任何额外状态。

如果您需要存储额外状态,请为此实现相应的 set_extra_state()。此函数在构建模块的 state_dict() 时被调用。

请注意,额外状态应该是可腌制的,以确保 state_dict 的序列化工作正常。我们只为序列化张量提供向后兼容性保证;如果其他对象的序列化腌制形式发生变化,则可能会破坏向后兼容性。

返回值

要存储在模块的 state_dict 中的任何额外状态

返回类型

object

set_extra_state(**kwargs: Dict[str, Any]) Any

设置加载的 state_dict 中包含的额外状态。

此函数从 load_state_dict() 调用,以处理 state_dict 中找到的任何额外状态。如果需要在模块的 state_dict 中存储额外状态,请实现此函数和相应的 get_extra_state()

参数

state (dict) – 来自 state_dict 的额外状态

class torch_tensorrt.runtime.PythonTorchTensorRTModule(serialized_engine: ~typing.Optional[bytes] = None, input_binding_names: ~typing.Optional[~typing.List[str]] = None, output_binding_names: ~typing.Optional[~typing.List[str]] = None, *, name: str = '', settings: ~torch_tensorrt.dynamo._settings.CompilationSettings = CompilationSettings(enabled_precisions={<dtype.f32: 7>}, debug=False, workspace_size=0, min_block_size=5, torch_executed_ops=set(), pass_through_build_failures=False, max_aux_streams=None, version_compatible=False, optimization_level=None, use_python_runtime=False, truncate_double=False, use_fast_partitioner=True, enable_experimental_decompositions=False, device=Device(type=DeviceType.GPU, gpu_id=0), require_full_compilation=False, disable_tf32=False, assume_dynamic_shape_support=False, sparse_weights=False, make_refittable=False, engine_capability=<EngineCapability.STANDARD: 1>, num_avg_timing_iters=1, dla_sram_size=1048576, dla_local_dram_size=1073741824, dla_global_dram_size=536870912, dryrun=False, hardware_compatible=False, timing_cache_path='/tmp/torch_tensorrt_engine_cache/timing_cache.bin', lazy_engine_init=False, cache_built_engines=False, reuse_cached_engines=False, use_explicit_typing=False, use_fp32_acc=False), weight_name_map: ~typing.Any = None)[source]

PythonTorchTensorRTModule 是一个包含任意 TensorRT 引擎的 PyTorch 模块。

此模块由 Torch-TensorRT 运行时支持,仅与 FX/Dynamo/Python 部署兼容。此模块无法通过 torch.jit.trace 序列化为 torchscript 以进行 C++ 部署。

__init__(serialized_engine: ~typing.Optional[bytes] = None, input_binding_names: ~typing.Optional[~typing.List[str]] = None, output_binding_names: ~typing.Optional[~typing.List[str]] = None, *, name: str = '', settings: ~torch_tensorrt.dynamo._settings.CompilationSettings = CompilationSettings(enabled_precisions={<dtype.f32: 7>}, debug=False, workspace_size=0, min_block_size=5, torch_executed_ops=set(), pass_through_build_failures=False, max_aux_streams=None, version_compatible=False, optimization_level=None, use_python_runtime=False, truncate_double=False, use_fast_partitioner=True, enable_experimental_decompositions=False, device=Device(type=DeviceType.GPU, gpu_id=0), require_full_compilation=False, disable_tf32=False, assume_dynamic_shape_support=False, sparse_weights=False, make_refittable=False, engine_capability=<EngineCapability.STANDARD: 1>, num_avg_timing_iters=1, dla_sram_size=1048576, dla_local_dram_size=1073741824, dla_global_dram_size=536870912, dryrun=False, hardware_compatible=False, timing_cache_path='/tmp/torch_tensorrt_engine_cache/timing_cache.bin', lazy_engine_init=False, cache_built_engines=False, reuse_cached_engines=False, use_explicit_typing=False, use_fp32_acc=False), weight_name_map: ~typing.Any = None)[source]

获取名称、目标设备、序列化的 TensorRT 引擎以及绑定名称/顺序,并在其周围构造一个 PyTorch torch.nn.Module。使用 TensorRT Python API 运行引擎

参数
  • serialized_engine (bytes) – 以字节数组形式表示的序列化 TensorRT 引擎

  • input_binding_names (List[str]) – 输入 TensorRT 引擎绑定名称列表,其顺序与传递给 TRT 模块的顺序相同

  • output_binding_names (List[str]) – 输出 TensorRT 引擎绑定名称列表,其顺序应与返回的顺序相同

关键字参数
  • name (str) – 模块名称

  • settings (CompilationSettings) – 用于编译引擎的设置,如果未传递对象,则假定引擎使用默认编译设置构建

示例

trt_module = PythonTorchTensorRTModule(
    engine_str,
    input_binding_names=["x"],
    output_binding_names=["output"],
    name="my_module",
    settings=CompilationSettings(device=torch.cuda.current_device)
)
cudagraphs_validate_shapes(inputs: Sequence[Tensor]) bool[source]

验证前向函数的输入形状与当前对

disable_profiling() None[source]

禁用 TensorRT 分析。

enable_profiling(profiler: IProfiler = None) None[source]

启用 TensorRT 分析。调用此函数后,TensorRT 将在每次前向运行的标准输出中报告每层花费的时间。

forward(*inputs: Tensor) Union[Tensor, Tuple[Tensor, ...]][source]

定义每次调用时执行的计算。

应由所有子类覆盖。

注意

虽然前向传递的配方需要在此函数中定义,但应该之后调用 Module 实例,而不是此函数,因为前者负责运行注册的钩子,而后者则静默地忽略它们。

get_layer_info() str[source]

获取引擎的层信息。仅支持 TRT > 8.2。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源