注意

点击此处下载完整的示例代码

自定义 Python 算子¶

创建于：2024 年 6 月 18 日 | 最后更新：2025 年 3 月 19 日 | 最后验证：2024 年 11 月 5 日

您将学到的内容

如何将用 Python 编写的自定义算子与 PyTorch 集成
如何使用 torch.library.opcheck 测试自定义算子

先决条件

PyTorch 2.4 或更高版本

PyTorch 提供了大量的算子库，可用于处理张量（例如 torch.add、torch.sum 等）。但是，您可能希望在 PyTorch 中使用新的定制算子，例如由第三方库编写的算子。本教程演示了如何包装 Python 函数，使其行为类似于 PyTorch 原生算子。您可能希望在 PyTorch 中创建自定义算子的原因包括：

将任意 Python 函数视为 torch.compile 的不透明可调用对象（即阻止 torch.compile 跟踪到该函数内部）。
为任意 Python 函数添加训练支持

使用 torch.library.custom_op() 创建 Python 自定义算子。使用 C++ TORCH_LIBRARY API 创建 C++ 自定义算子（这些算子可在无 Python 环境中工作）。有关更多详细信息，请参阅自定义算子登陆页。

请注意，如果您的操作可以通过现有 PyTorch 算子的组合来表达，则通常无需使用自定义算子 API – 所有功能（例如 torch.compile、训练支持）都应该能够正常工作。

示例：将 PIL 的 crop 包装成自定义算子¶

假设我们正在使用 PIL 的 crop 操作。

import torch
from torchvision.transforms.functional import to_pil_image, pil_to_tensor
import PIL
import IPython
import matplotlib.pyplot as plt

def crop(pic, box):
    img = to_pil_image(pic.cpu())
    cropped_img = img.crop(box)
    return pil_to_tensor(cropped_img).to(pic.device) / 255.

def display(img):
    plt.imshow(img.numpy().transpose((1, 2, 0)))

img = torch.ones(3, 64, 64)
img *= torch.linspace(0, 1, steps=64) * torch.linspace(0, 1, steps=64).unsqueeze(-1)
display(img)

cropped_img = crop(img, (10, 10, 50, 50))
display(cropped_img)

crop 不能被 torch.compile 有效地直接处理：torch.compile 会在其无法处理的函数上产生“图中断 (graph break)”，而图中断会影响性能。以下代码通过引发错误来演示这一点（torch.compile 配合 fullgraph=True 会在发生图中断时引发错误）。

@torch.compile(fullgraph=True)
def f(img):
    return crop(img, (10, 10, 50, 50))

# The following raises an error. Uncomment the line to see it.
# cropped_img = f(img)

为了将 crop 视为黑盒以配合 torch.compile 使用，我们需要做两件事：

将函数包装成 PyTorch 自定义算子。
为算子添加一个“FakeTensor 核”（也称为“元核”）。给定一些 FakeTensor 输入（没有存储的虚拟张量），此函数应返回您选择的虚拟张量，并具有正确的张量元数据（形状/步长/dtype/设备）。

from typing import Sequence

# Use torch.library.custom_op to define a new custom operator.
# If your operator mutates any input Tensors, their names must be specified
# in the ``mutates_args`` argument.
@torch.library.custom_op("mylib::crop", mutates_args=())
def crop(pic: torch.Tensor, box: Sequence[int]) -> torch.Tensor:
    img = to_pil_image(pic.cpu())
    cropped_img = img.crop(box)
    return (pil_to_tensor(cropped_img) / 255.).to(pic.device, pic.dtype)

# Use register_fake to add a ``FakeTensor`` kernel for the operator
@crop.register_fake
def _(pic, box):
    channels = pic.shape[0]
    x0, y0, x1, y1 = box
    result = pic.new_empty(y1 - y0, x1 - x0, channels).permute(2, 0, 1)
    # The result should have the same metadata (shape/strides/``dtype``/device)
    # as running the ``crop`` function above.
    return result

之后，crop 现在可以在没有图中断的情况下工作

@torch.compile(fullgraph=True)
def f(img):
    return crop(img, (10, 10, 50, 50))

cropped_img = f(img)
display(img)

display(cropped_img)

为 crop 添加训练支持¶

使用 torch.library.register_autograd 为算子添加训练支持。首选这种方式，而不是直接使用 torch.autograd.Function；autograd.Function 与 PyTorch 算子注册 API 的某些组合在与 torch.compile 组合时可能导致（并且已经导致）隐式的错误行为。

如果您不需要训练支持，则无需使用 torch.library.register_autograd。如果您在使用没有 autograd 注册的 custom_op 进行训练时，我们将引发错误消息。

crop 的梯度公式本质上是 PIL.paste（我们将推导留给读者作为练习）。首先，让我们将 paste 包装成一个自定义算子

@torch.library.custom_op("mylib::paste", mutates_args=())
def paste(im1: torch.Tensor, im2: torch.Tensor, coord: Sequence[int]) -> torch.Tensor:
    assert im1.device == im2.device
    assert im1.dtype == im2.dtype
    im1_pil = to_pil_image(im1.cpu())
    im2_pil = to_pil_image(im2.cpu())
    PIL.Image.Image.paste(im1_pil, im2_pil, coord)
    return (pil_to_tensor(im1_pil) / 255.).to(im1.device, im1.dtype)

@paste.register_fake
def _(im1, im2, coord):
    assert im1.device == im2.device
    assert im1.dtype == im2.dtype
    return torch.empty_like(im1)

现在，让我们使用 register_autograd 来指定 crop 的梯度公式

def backward(ctx, grad_output):
    grad_input = grad_output.new_zeros(ctx.pic_shape)
    grad_input = paste(grad_input, grad_output, ctx.coords)
    return grad_input, None

def setup_context(ctx, inputs, output):
    pic, box = inputs
    ctx.coords = box[:2]
    ctx.pic_shape = pic.shape

crop.register_autograd(backward, setup_context=setup_context)

请注意，反向传播必须是 PyTorch 可理解的算子的组合，这就是我们将 paste 包装成自定义算子而不是直接使用 PIL 的 paste 的原因。

img = img.requires_grad_()
result = crop(img, (10, 10, 50, 50))
result.sum().backward()
display(img.grad)

这是正确的梯度，裁剪区域为 1（白色），未使用区域为 0（黑色）。

测试 Python 自定义算子¶

使用 torch.library.opcheck 测试自定义算子是否正确注册。这不会测试梯度在数学上是否正确；请为此编写单独的测试（手动测试或 torch.autograd.gradcheck）。

要使用 opcheck，请向其传递一组示例输入进行测试。如果您的算子支持训练，则示例应包含需要梯度的张量。如果您的算子支持多种设备，则示例应包含来自每种设备的张量。

examples = [
    [torch.randn(3, 64, 64), [0, 0, 10, 10]],
    [torch.randn(3, 91, 91, requires_grad=True), [10, 0, 20, 10]],
    [torch.randn(3, 60, 60, dtype=torch.double), [3, 4, 32, 20]],
    [torch.randn(3, 512, 512, requires_grad=True, dtype=torch.double), [3, 4, 32, 45]],
]

for example in examples:
    torch.library.opcheck(crop, example)

可变 Python 自定义算子¶

您还可以将修改输入的 Python 函数包装成自定义算子。修改输入的函数很常见，因为许多底层核 (kernel) 就是这样编写的；例如，计算 sin 的核可能会接收输入和输出张量，并将 input.sin() 写入输出张量。

我们将使用 numpy.sin 来演示一个可变 Python 自定义算子的例子。

import numpy as np

@torch.library.custom_op("mylib::numpy_sin", mutates_args={"output"}, device_types="cpu")
def numpy_sin(input: torch.Tensor, output: torch.Tensor) -> None:
    assert input.device == output.device
    assert input.device.type == "cpu"
    input_np = input.numpy()
    output_np = output.numpy()
    np.sin(input_np, out=output_np)

由于该算子不返回任何内容，因此无需注册 FakeTensor 核（元核）即可使其与 torch.compile 一起工作。

@torch.compile(fullgraph=True)
def f(x):
    out = torch.empty(3)
    numpy_sin(x, out)
    return out

x = torch.randn(3)
y = f(x)
assert torch.allclose(y, x.sin())

这是一次 opcheck 运行，告诉我们确实正确注册了算子。例如，如果我们忘记将输出添加到 mutates_args，opcheck 将会报错。

example_inputs = [
    [torch.randn(3), torch.empty(3)],
    [torch.randn(0, 3), torch.empty(0, 3)],
    [torch.randn(1, 2, 3, 4, dtype=torch.double), torch.empty(1, 2, 3, 4, dtype=torch.double)],
]

for example in example_inputs:
    torch.library.opcheck(numpy_sin, example)

结论¶

在本教程中，我们学习了如何使用 torch.library.custom_op 在 Python 中创建一个自定义算子，该算子可与 PyTorch 的子系统（例如 torch.compile 和 autograd）一起工作。

本教程提供了对自定义算子的基本介绍。有关更详细的信息，请参阅

脚本总运行时间： ( 0 分钟 2.402 秒)

画廊由 Sphinx-Gallery 生成