• 教程 >
  • 自定义 C++ 和 CUDA 运算符
快捷方式

自定义 C++ 和 CUDA 运算符

作者: Richard Zou

你将学到什么
  • 如何将用 C++/CUDA 编写的自定义运算符与 PyTorch 集成

  • 如何使用 torch.library.opcheck 测试自定义运算符

先决条件
  • PyTorch 2.4 或更高版本

  • 了解 C++ 和 CUDA 编程的基础知识

PyTorch 提供了一个大型的运算符库,这些运算符可以在张量上工作(例如 torch.add、torch.sum 等)。但是,你可能希望将新的自定义运算符引入 PyTorch。本教程演示了编写用 C++/CUDA 编写的自定义运算符的最佳方法。

在本教程中,我们将演示如何编写一个融合的乘加 C++ 和 CUDA 运算符,该运算符与 PyTorch 子系统组合使用。该操作的语义如下

def mymuladd(a: Tensor, b: Tensor, c: float):
    return a * b + c

你可以在 此处 找到本教程的端到端工作示例。

设置构建系统

如果你正在开发自定义 C++/CUDA 代码,则必须对其进行编译。请注意,如果你正在与一个已经绑定到预编译 C++/CUDA 代码的 Python 库进行交互,你可能会考虑编写一个自定义 Python 运算符(Python 自定义运算符)。

使用 torch.utils.cpp_extension 编译自定义 C++/CUDA 代码以供 PyTorch C++ 扩展使用,可以使用 setuptools “提前” 构建,也可以使用 load_inline “即时” 构建;我们将重点关注 “提前” 风格。

使用 cpp_extension 就像编写以下 setup.py 一样简单

from setuptools import setup, Extension
from torch.utils import cpp_extension

setup(name="extension_cpp",
      ext_modules=[
          cpp_extension.CppExtension("extension_cpp", ["muladd.cpp"])],
      cmdclass={'build_ext': cpp_extension.BuildExtension})

如果您需要编译 CUDA 代码(例如,.cu 文件),则可以使用 torch.utils.cpp_extension.CUDAExtension。请参阅 extension-cpp 获取有关如何设置的示例。

定义自定义操作并添加后端实现

首先,让我们编写一个计算 mymuladd 的 C++ 函数

at::Tensor mymuladd_cpu(at::Tensor a, const at::Tensor& b, double c) {
  TORCH_CHECK(a.sizes() == b.sizes());
  TORCH_CHECK(a.dtype() == at::kFloat);
  TORCH_CHECK(b.dtype() == at::kFloat);
  TORCH_INTERNAL_ASSERT(a.device().type() == at::DeviceType::CPU);
  TORCH_INTERNAL_ASSERT(b.device().type() == at::DeviceType::CPU);
  at::Tensor a_contig = a.contiguous();
  at::Tensor b_contig = b.contiguous();
  at::Tensor result = torch::empty(a_contig.sizes(), a_contig.options());
  const float* a_ptr = a_contig.data_ptr<float>();
  const float* b_ptr = b_contig.data_ptr<float>();
  float* result_ptr = result.data_ptr<float>();
  for (int64_t i = 0; i < result.numel(); i++) {
    result_ptr[i] = a_ptr[i] * b_ptr[i] + c;
  }
  return result;
}

为了从 PyTorch 的 Python 前端使用它,我们需要使用 TORCH_LIBRARY API 将其注册为 PyTorch 操作符。这将自动将操作符绑定到 Python。

操作符注册是一个两步过程

  • 定义操作符 - 此步骤确保 PyTorch 了解新的操作符。

  • 注册后端实现 - 在此步骤中,各种后端的实现(例如 CPU 和 CUDA)与操作符相关联。

定义操作符

要定义操作符,请执行以下步骤

  1. 为操作符选择一个命名空间。我们建议命名空间为您的顶级项目名称;在本教程中,我们将使用“extension_cpp”。

  2. 提供一个模式字符串,用于指定操作符的输入/输出类型,以及输入张量是否会被修改。除了张量和浮点数之外,我们还支持更多类型;有关更多详细信息,请参阅 自定义操作符手册

    • 如果您正在编写一个可以修改其输入张量的操作符,请参阅此处 (创建可变操作符),了解如何指定它。

TORCH_LIBRARY(extension_cpp, m) {
   // Note that "float" in the schema corresponds to the C++ double type
   // and the Python float type.
   m.def("mymuladd(Tensor a, Tensor b, float c) -> Tensor");
 }

这使得操作符可以通过 Python 中的 torch.ops.extension_cpp.mymuladd 使用。

为操作符注册后端实现

使用 TORCH_LIBRARY_IMPL 为操作符注册后端实现。

TORCH_LIBRARY_IMPL(extension_cpp, CPU, m) {
  m.impl("mymuladd", &mymuladd_cpu);
}

如果您还有 myaddmul 的 CUDA 实现,您可以在单独的 TORCH_LIBRARY_IMPL 块中注册它

__global__ void muladd_kernel(int numel, const float* a, const float* b, float c, float* result) {
  int idx = blockIdx.x * blockDim.x + threadIdx.x;
  if (idx < numel) result[idx] = a[idx] * b[idx] + c;
}

at::Tensor mymuladd_cuda(const at::Tensor& a, const at::Tensor& b, double c) {
  TORCH_CHECK(a.sizes() == b.sizes());
  TORCH_CHECK(a.dtype() == at::kFloat);
  TORCH_CHECK(b.dtype() == at::kFloat);
  TORCH_INTERNAL_ASSERT(a.device().type() == at::DeviceType::CUDA);
  TORCH_INTERNAL_ASSERT(b.device().type() == at::DeviceType::CUDA);
  at::Tensor a_contig = a.contiguous();
  at::Tensor b_contig = b.contiguous();
  at::Tensor result = torch::empty(a_contig.sizes(), a_contig.options());
  const float* a_ptr = a_contig.data_ptr<float>();
  const float* b_ptr = b_contig.data_ptr<float>();
  float* result_ptr = result.data_ptr<float>();

  int numel = a_contig.numel();
  muladd_kernel<<<(numel+255)/256, 256>>>(numel, a_ptr, b_ptr, c, result_ptr);
  return result;
}

TORCH_LIBRARY_IMPL(extension_cpp, CUDA, m) {
  m.impl("mymuladd", &mymuladd_cuda);
}

为操作符添加 torch.compile 支持

要为操作符添加 torch.compile 支持,我们必须添加一个 FakeTensor 内核(也称为“元内核”或“抽象实现”)。FakeTensor 是具有元数据(如形状、数据类型、设备)但没有数据的张量:操作符的 FakeTensor 内核指定了如何根据输入张量的元数据计算输出张量的元数据。FakeTensor 内核应返回您选择的具有正确张量元数据(形状/步幅/dtype/设备)的虚拟张量。

我们建议通过 Python 中的 torch.library.register_fake API 完成此操作,尽管也可以从 C++ 完成此操作(有关更多详细信息,请参阅 自定义操作符手册)。

# Important: the C++ custom operator definitions should be loaded first
# before calling ``torch.library`` APIs that add registrations for the
# C++ custom operator(s). The following import loads our
# C++ custom operator definitions.
# See the next section for more details.
from . import _C

@torch.library.register_fake("extension_cpp::mymuladd")
def _(a, b, c):
    torch._check(a.shape == b.shape)
    torch._check(a.dtype == torch.float)
    torch._check(b.dtype == torch.float)
    torch._check(a.device == b.device)
    return torch.empty_like(a)

设置混合 Python/C++ 注册

在本教程中,我们在 C++ 中定义了一个自定义操作符,在 C++ 中添加了 CPU/CUDA 实现,并在 Python 中添加了 FakeTensor 内核和反向公式。这些注册加载(或导入)的顺序很重要(以错误的顺序导入会导致错误)。

要将自定义操作符与混合 Python/C++ 注册一起使用,我们必须首先加载包含自定义操作符定义的 C++ 库,然后调用 torch.library 注册 API。这可以通过两种方式之一完成

  1. 如果您正在遵循本教程,导入我们创建的 Python C 扩展模块将加载 C++ 自定义操作符定义。

  2. 如果您的 C++ 自定义操作符位于共享库对象中,您还可以使用 torch.ops.load_library("/path/to/library.so") 来加载它。

为操作符添加训练(autograd)支持

使用 torch.library.register_autograd 为操作符添加训练支持。优先使用它,而不是直接使用 Python torch.autograd.Function 或 C++ torch::autograd::Function;您必须以非常特定的方式使用它们,以避免出现静默错误(有关更多详细信息,请参阅 自定义操作符手册)。

def _backward(ctx, grad):
    a, b = ctx.saved_tensors
    grad_a, grad_b = None, None
    if ctx.needs_input_grad[0]:
        grad_a = grad * b
    if ctx.needs_input_grad[1]:
        grad_b = grad * a
    return grad_a, grad_b, None

def _setup_context(ctx, inputs, output):
    a, b, c = inputs
    saved_a, saved_b = None, None
    if ctx.needs_input_grad[0]:
        saved_b = b
    if ctx.needs_input_grad[1]:
        saved_a = a
    ctx.save_for_backward(saved_a, saved_b)

# This code adds training support for the operator. You must provide us
# the backward formula for the operator and a `setup_context` function
# to save values to be used in the backward.
torch.library.register_autograd(
    "extension_cpp::mymuladd", _backward, setup_context=_setup_context)

请注意,反向必须是 PyTorch 理解的操作符的组合。如果您希望在反向传递中使用另一个自定义 C++ 或 CUDA 内核,它必须被包装到一个自定义操作符中。

如果我们有自己的自定义 mymul 内核,我们需要将其包装到一个自定义操作符中,然后从反向调用它

// New! a mymul_cpu kernel
at::Tensor mymul_cpu(const at::Tensor& a, const at::Tensor& b) {
  TORCH_CHECK(a.sizes() == b.sizes());
  TORCH_CHECK(a.dtype() == at::kFloat);
  TORCH_CHECK(b.dtype() == at::kFloat);
  TORCH_CHECK(a.device().type() == at::DeviceType::CPU);
  TORCH_CHECK(b.device().type() == at::DeviceType::CPU);
  at::Tensor a_contig = a.contiguous();
  at::Tensor b_contig = b.contiguous();
  at::Tensor result = torch::empty(a_contig.sizes(), a_contig.options());
  const float* a_ptr = a_contig.data_ptr<float>();
  const float* b_ptr = b_contig.data_ptr<float>();
  float* result_ptr = result.data_ptr<float>();
  for (int64_t i = 0; i < result.numel(); i++) {
    result_ptr[i] = a_ptr[i] * b_ptr[i];
  }
  return result;
}

TORCH_LIBRARY(extension_cpp, m) {
  m.def("mymuladd(Tensor a, Tensor b, float c) -> Tensor");
  // New! defining the mymul operator
  m.def("mymul(Tensor a, Tensor b) -> Tensor");
}


TORCH_LIBRARY_IMPL(extension_cpp, CPU, m) {
  m.impl("mymuladd", &mymuladd_cpu);
  // New! registering the cpu kernel for the mymul operator
  m.impl("mymul", &mymul_cpu);
}
def _backward(ctx, grad):
    a, b = ctx.saved_tensors
    grad_a, grad_b = None, None
    if ctx.needs_input_grad[0]:
        grad_a = torch.ops.extension_cpp.mymul.default(grad, b)
    if ctx.needs_input_grad[1]:
        grad_b = torch.ops.extension_cpp.mymul.default(grad, a)
    return grad_a, grad_b, None


def _setup_context(ctx, inputs, output):
    a, b, c = inputs
    saved_a, saved_b = None, None
    if ctx.needs_input_grad[0]:
        saved_b = b
    if ctx.needs_input_grad[1]:
        saved_a = a
    ctx.save_for_backward(saved_a, saved_b)


# This code adds training support for the operator. You must provide us
# the backward formula for the operator and a `setup_context` function
# to save values to be used in the backward.
torch.library.register_autograd(
    "extension_cpp::mymuladd", _backward, setup_context=_setup_context)

测试操作符

使用 torch.library.opcheck 来测试自定义操作符是否已正确注册。请注意,此函数不测试梯度在数学上是否正确 - 计划为其编写单独的测试,无论是手动测试还是使用 torch.autograd.gradcheck

def sample_inputs(device, *, requires_grad=False):
    def make_tensor(*size):
        return torch.randn(size, device=device, requires_grad=requires_grad)

    def make_nondiff_tensor(*size):
        return torch.randn(size, device=device, requires_grad=False)

    return [
        [make_tensor(3), make_tensor(3), 1],
        [make_tensor(20), make_tensor(20), 3.14],
        [make_tensor(20), make_nondiff_tensor(20), -123],
        [make_nondiff_tensor(2, 3), make_tensor(2, 3), -0.3],
    ]

def reference_muladd(a, b, c):
    return a * b + c

samples = sample_inputs(device, requires_grad=True)
samples.extend(sample_inputs(device, requires_grad=False))
for args in samples:
    # Correctness test
    result = torch.ops.extension_cpp.mymuladd(*args)
    expected = reference_muladd(*args)
    torch.testing.assert_close(result, expected)

    # Use opcheck to check for incorrect usage of operator registration APIs
    torch.library.opcheck(torch.ops.extension_cpp.mymuladd.default, args)

创建可变操作符

您可能希望编写一个修改其输入的自定义操作符。使用 Tensor(a!) 在模式中指定每个可变张量;否则,将出现未定义的行为。如果有多个可变张量,请为每个可变张量使用不同的名称(例如,Tensor(a!)Tensor(b!)Tensor(c!))。

让我们编写一个 myadd_out(a, b, out) 操作符,它将 a+b 的内容写入 out

// An example of an operator that mutates one of its inputs.
void myadd_out_cpu(const at::Tensor& a, const at::Tensor& b, at::Tensor& out) {
  TORCH_CHECK(a.sizes() == b.sizes());
  TORCH_CHECK(b.sizes() == out.sizes());
  TORCH_CHECK(a.dtype() == at::kFloat);
  TORCH_CHECK(b.dtype() == at::kFloat);
  TORCH_CHECK(out.dtype() == at::kFloat);
  TORCH_CHECK(out.is_contiguous());
  TORCH_INTERNAL_ASSERT(a.device().type() == at::DeviceType::CPU);
  TORCH_INTERNAL_ASSERT(b.device().type() == at::DeviceType::CPU);
  TORCH_INTERNAL_ASSERT(out.device().type() == at::DeviceType::CPU);
  at::Tensor a_contig = a.contiguous();
  at::Tensor b_contig = b.contiguous();
  const float* a_ptr = a_contig.data_ptr<float>();
  const float* b_ptr = b_contig.data_ptr<float>();
  float* result_ptr = out.data_ptr<float>();
  for (int64_t i = 0; i < out.numel(); i++) {
    result_ptr[i] = a_ptr[i] + b_ptr[i];
  }
}

在定义操作符时,我们必须在模式中指定它修改了 out 张量

TORCH_LIBRARY(extension_cpp, m) {
  m.def("mymuladd(Tensor a, Tensor b, float c) -> Tensor");
  m.def("mymul(Tensor a, Tensor b) -> Tensor");
  // New!
  m.def("myadd_out(Tensor a, Tensor b, Tensor(a!) out) -> ()");
}

TORCH_LIBRARY_IMPL(extension_cpp, CPU, m) {
  m.impl("mymuladd", &mymuladd_cpu);
  m.impl("mymul", &mymul_cpu);
  // New!
  m.impl("myadd_out", &myadd_out_cpu);
}

注意

不要将任何修改的张量作为操作符的输出返回,因为这会导致与 PyTorch 子系统(如 torch.compile)不兼容。

结论

在本教程中,我们介绍了将自定义 C++ 和 CUDA 操作符集成到 PyTorch 的推荐方法。 TORCH_LIBRARY/torch.library API 非常底层。有关如何使用 API 的更多信息,请参阅 自定义操作符手册

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源