保存使用 Torch-TensorRT 编译的模型¶

可以使用 torch_tensorrt.save API 保存使用 Torch-TensorRT 编译的模型。

Dynamo IR¶

默认情况下，Torch-TensorRT 的 ir=dynamo 编译输出类型是 torch.fx.GraphModule 对象。我们可以通过指定 output_format 标志将此对象保存为 TorchScript (torch.jit.ScriptModule) 或 ExportedProgram (torch.export.ExportedProgram) 格式。以下是 output_format 可以接受的选项：

exported_program：这是默认选项。我们首先对 graphmodule 执行转换，然后使用 torch.export.save 保存模块。
torchscript：我们通过 torch.jit.trace 追踪 graphmodule，然后通过 torch.jit.save 保存它。

a) ExportedProgram¶

以下是一个使用示例

import torch
import torch_tensorrt

model = MyModel().eval().cuda()
inputs = [torch.randn((1, 3, 224, 224)).cuda()]
# trt_ep is a torch.fx.GraphModule object
trt_gm = torch_tensorrt.compile(model, ir="dynamo", inputs=inputs)
torch_tensorrt.save(trt_gm, "trt.ep", inputs=inputs)

# Later, you can load it and run inference
model = torch.export.load("trt.ep").module()
model(*inputs)

b) Torchscript¶

import torch
import torch_tensorrt

model = MyModel().eval().cuda()
inputs = [torch.randn((1, 3, 224, 224)).cuda()]
# trt_gm is a torch.fx.GraphModule object
trt_gm = torch_tensorrt.compile(model, ir="dynamo", inputs=inputs)
torch_tensorrt.save(trt_gm, "trt.ts", output_format="torchscript", inputs=inputs)

# Later, you can load it and run inference
model = torch.jit.load("trt.ts").cuda()
model(*inputs)

Torchscript IR¶

在 Torch-TensorRT 1.X 版本中，使用 Torchscript IR 是使用 Torch-TensorRT 编译和运行推理的主要方式。对于 ir=ts，此行为在 2.X 版本中也保持不变。

import torch
import torch_tensorrt

model = MyModel().eval().cuda()
inputs = [torch.randn((1, 3, 224, 224)).cuda()]
trt_ts = torch_tensorrt.compile(model, ir="ts", inputs=inputs) # Output is a ScriptModule object
torch.jit.save(trt_ts, "trt_model.ts")

# Later, you can load it and run inference
model = torch.jit.load("trt_model.ts").cuda()
model(*inputs)

加载模型¶

我们可以直接使用 PyTorch 中的 torch.jit.load 和 torch.export.load API 加载 torchscript 或 exported_program 模型。此外，我们还提供了一个轻量级封装器 torch_tensorrt.load(file_path)，它可以加载上述任一模型类型。