如何为 PyTorch 2 Export 量化编写一个 `Quantizer`¶

创建日期：2023 年 7 月 28 日 | 最后更新日期：2024 年 8 月 1 日 | 最后验证日期：2024 年 11 月 5 日

作者：Leslie Fang, Weiwen Xia, Jiong Gong, Kimish Patel, Jerry Zhang

前提条件：¶

必需

可选

引言¶

(prototype) PyTorch 2 Export 训练后量化介绍了 pytorch 2 export 量化的总体 API，与 fx 图模式量化的主要 API 区别在于，我们明确指出量化是针对特定后端的。因此，要使用新流程，后端需要实现一个 Quantizer 类，该类包含：(1). 后端支持的量化算子或模式有哪些 (2). 用户如何表达他们希望其浮点模型被量化的方式，例如，将整个模型量化为 int8 对称量化，或仅量化线性层等。

关于新 API 和 Quantizer 的动机，请参阅此处。

为 XNNPACK 定义的现有量化器对象位于 QNNPackQuantizer 中。

注解 API¶

Quantizer 使用注解 API 来传达不同算子/模式的量化意图。注解 API 主要包括 QuantizationSpec 和 QuantizationAnnotation。

QuantizationSpec 用于传达张量将如何被量化的意图，例如 dtype、位宽、min、max 值、对称 vs. 非对称等。此外，QuantizationSpec 还允许量化器指定张量值应如何被观察，例如 MinMaxObserver、HistogramObserver 或一些自定义观察器。

QuantizationAnnotation 由 QuantizationSpec 对象组成，用于注解模式的输入张量和输出张量。注解输入张量等同于注解输入边，而注解输出张量等同于注解节点。QuantizationAnnotation 是一个 dataclass，包含几个字段：

input_qspec_map 字段是 Dict 类型，用于将每个输入张量（作为输入边）映射到其 QuantizationSpec。
output_qspec 字段表示用于注解输出张量的 QuantizationSpec；
_annotated 字段指示此节点是否已被量化器注解。

总而言之，注解 API 要求量化器注解图的边（输入张量）或节点（输出张量）。现在，我们将提供一个分步教程，说明如何使用注解 API 和不同类型的 QuantizationSpec。

1. 注解常见算子模式¶

为了使用量化模式/算子，例如 quantized add，后端开发者会有意图量化（如 QuantizationSpec 所表达）模式的输入和输出。以下是量化工作流中使用注解 API 传达此意图的示例流程（以 add 算子为例）。

步骤 1：在 FX 图中识别原始浮点模式。识别此模式有几种方法：量化器可以使用模式匹配器来匹配算子模式；量化器可以从头到尾遍历节点并比较节点的 target 类型以匹配算子模式。在此示例中，我们可以使用 get_source_partitions 来匹配此模式。原始浮点 add 模式只包含一个 add 节点。

add_partitions = get_source_partitions(gm.graph, [operator.add, torch.add])
add_partitions = list(itertools.chain(*add_partitions.values()))
for add_partition in add_partitions:
    add_node = add_partition.output_nodes[0]

步骤 2：为模式的输入和输出定义 QuantizationSpec。QuantizationSpec 定义了 data type（数据类型）、qscheme 以及其他量化参数，表达了用户关于如何观察或伪量化张量的意图。

act_quantization_spec = QuantizationSpec(
    dtype=torch.int8,
    quant_min=-128,
    quant_max=127,
    qscheme=torch.per_tensor_affine,
    is_dynamic=False,
    observer_or_fake_quant_ctr=HistogramObserver.with_args(eps=2**-12),
)

input_act_qspec = act_quantization_spec
output_act_qspec = act_quantization_spec

步骤 3：使用 QuantizationAnnotation 注解模式的输入和输出。在此示例中，我们将使用在上述步骤 2 中为 add 节点的两个输入和一个输出创建的 QuantizationSpec 来创建 QuantizationAnnotation 对象。

input_qspec_map = {}
input_act0 = add_node.args[0]
input_qspec_map[input_act0] = input_act_qspec

input_act1 = add_node.args[1]
input_qspec_map[input_act1] = input_act_qspec

add_node.meta["quantization_annotation"] = QuantizationAnnotation(
    input_qspec_map=input_qspec_map,
    output_qspec=output_act_qspec,
    _annotated=True,
)

像这样注解 add 节点后，在后续的量化流程中，将在 prepare 阶段在其两个输入节点和一个输出节点处插入 HistogramObserver。在 convert 阶段，HistogramObserver 将被替换为 quantize 节点和 dequantize 节点。

2. 注解共享量化参数的算子¶

用户自然希望注解一个量化模型，其中一些张量之间的量化参数可以显式共享。两个典型的用例如下：

示例 1：一个例子是 add，其中两个输入共享量化参数会使算子实现更容易。如果不使用 SharedQuantizationSpec，我们必须按照上述第 1 节的示例注解 add，其中 add 的两个输入具有不同的量化参数。
示例 2：另一个例子是在输入和输出之间共享量化参数。这通常来自诸如 maxpool、average_pool、concat 等算子。

SharedQuantizationSpec 专为此用例设计，用于注解其量化参数与其他张量共享的张量。SharedQuantizationSpec 的输入是一个 EdgeOrNode 对象，它可以是一个输入边或一个输出值。

注意

共享是传递性的

有些张量由于以下原因可能实际使用共享量化规范：
- 两个节点/边配置为使用 SharedQuantizationSpec。
- 某些节点已存在共享。
例如，假设我们有两个 conv 节点 conv1 和 conv2，它们都输入到一个 cat 节点： cat([conv1_out, conv2_out], ...)。假设 conv1、conv2 的输出以及 cat 的第一个输入配置了相同的 QuantizationSpec 配置。cat 的第二个输入配置为与第一个输入使用 SharedQuantizationSpec。
```
conv1_out: qspec1(dtype=torch.int8, ...)
conv2_out: qspec1(dtype=torch.int8, ...)
cat_input0: qspec1(dtype=torch.int8, ...)
cat_input1: SharedQuantizationSpec((conv1, cat))  # conv1 node is the first input of cat
```
首先，conv1 的输出与 cat 的第一个输入隐式共享量化参数（和观察器对象），对于 conv2 的输出和 cat 的第二个输入也是如此。因此，由于用户配置 cat 的两个输入共享量化参数，根据传递性，conv2_out 和 conv1_out 也将共享量化参数。在观察到的图中，您将看到以下内容：
```
conv1 -> obs -> cat
conv2 -> obs   /
```
并且两个 obs 将是同一个观察器实例。

输入边是输入节点与消费该输入的节点之间的连接，因此它是一个 Tuple[Node, Node]。
输出值是一个 FX Node。

现在，如果我们想使用 SharedQuantizationSpec 重写 add 注解示例，以表明两个输入张量共享量化参数。我们可以将其 QuantizationAnnotation 定义如下：

步骤 1：在 FX 图中识别原始浮点模式。我们可以使用与 QuantizationSpec 示例中介绍的相同方法来识别 add 模式。
步骤 2：使用 QuantizationSpec 注解 add 的 input_act0。
步骤 3：创建一个 SharedQuantizationSpec 对象，其输入边定义为 (input_act0, add_node)，这意味着共享用于此边的观察器。然后，用户可以使用此 SharedQuantizationSpec 对象注解 input_act1。

input_qspec_map = {}
share_qparams_with_input_act0_qspec = SharedQuantizationSpec((input_act0, add_node))
input_qspec_map = {input_act0: act_quantization_spec, input_act1: share_qparams_with_input_act0_qspec}

add_node.meta["quantization_annotation"] = QuantizationAnnotation(
    input_qspec_map=input_qspec_map,
    output_qspec=act_quantization_spec,
    _annotated=True,
)

3. 注解固定量化参数的算子¶

注解量化模型的另一个典型用例是其量化参数预先已知的张量。例如，像 sigmoid 这样的算子，它在输入和输出张量处具有预定义和固定的 scale/zero_point 值。FixedQParamsQuantizationSpec 专为此用例设计。要使用 FixedQParamsQuantizationSpec，用户需要显式传入 scale 和 zero_point 参数。

步骤 1：在 FX 图中识别原始浮点模式。我们可以使用与 QuantizationSpec 示例中介绍的相同方法来识别 sigmoid 模式。
步骤 2：创建 FixedQParamsQuantizationSpec 对象，其输入为固定的 scale、zero_point 值。这些值将用于在 convert 阶段创建 quantize 节点和 dequantize 节点。
步骤 3：注解输入和输出以使用此 FixedQParamsQuantizationSpec 对象。

act_qspec = FixedQParamsQuantizationSpec(
    dtype=torch.uint8,
    quant_min=0,
    quant_max=255,
    qscheme=torch.per_tensor_affine,
    scale=1.0 / 256.0,
    zero_point=0,
)
sigmoid_node.meta["quantization_annotation"] = QuantizationAnnotation(
    input_qspec_map={input_act: act_qspec},
    output_qspec=act_qspec,
    _annotated=True,
)

4. 注解带有派生量化参数的张量¶

另一个用例是定义其量化参数从其他张量派生的张量的约束。例如，如果我们想注解一个卷积节点，并定义其偏置输入张量的 scale 为激活张量的 scale 和权重张量的 scale 的乘积。我们可以使用 DerivedQuantizationSpec 来注解这个卷积节点。

步骤 1：在 FX 图中识别原始浮点模式。我们可以使用与 QuantizationSpec 示例中介绍的相同方法来识别 convolution 模式。
步骤 2：定义 derive_qparams_fn 函数，它接受 ObserverOrFakeQuantize（ObserverBase 或 FakeQuantizeBase）列表作为输入。用户可以从每个 ObserverOrFakeQuantize 对象中获取 scale、zero point 值。用户可以定义其关于如何基于从观察器或伪量化实例计算出的量化参数来派生新的 scale、zero point 值的启发式方法。
步骤 3：定义 DerivedQuantizationSpec 对象，它接受输入：EdgeOrNode 对象列表（对应于每个 EdgeOrNode 对象的观察器将传入 derive_qparams_fn 函数）；derive_qparams_fn 函数；以及其他几个量化参数，例如 dtype、qscheme。
步骤 4：使用 QuantizationAnnotation 注解此卷积节点的输入和输出。

def derive_qparams_fn(obs_or_fqs: List[ObserverOrFakeQuantize]) -> Tuple[Tensor, Tensor]:
    assert len(obs_or_fqs) == 2, \
        "Expecting two obs/fqs, one for activation and one for weight, got: {}".format(len(obs_or_fq))
    act_obs_or_fq = obs_or_fqs[0]
    weight_obs_or_fq = obs_or_fqs[1]
    act_scale, act_zp = act_obs_or_fq.calculate_qparams()
    weight_scale, weight_zp = weight_obs_or_fq.calculate_qparams()
    return torch.tensor([act_scale * weight_scale]).to(torch.float32), torch.tensor([0]).to(torch.int32)

bias_qspec = DerivedQuantizationSpec(
    derived_from=[(input_act, node), (weight, node)],
    derive_qparams_fn=derive_qparams_fn,
    dtype=torch.int32,
    quant_min=-2**31,
    quant_max=2**31 - 1,
    qscheme=torch.per_tensor_symmetric,
)
input_qspec_map = {input_act: act_quantization_spec, weight: weight_quantization_spec, bias: bias_qspec}
node.meta["quantization_annotation"] = QuantizationAnnotation(
    input_qspec_map=input_qspec_map,
    output_qspec=act_quantization_spec,
    _annotated=True,
)

5. Resnet18 的一个玩具示例¶

在使用 QuantizationAnnotation API 定义了上述注解方法后，我们现在可以将它们组合起来构建一个 BackendQuantizer 并使用 Torchvision Resnet18 运行一个玩具示例。为了更好地理解最终示例，这里列出了示例中使用的类和实用函数：

QuantizationConfig 分别包含用于激活、权重和偏置的 QuantizationSpec。
注解模型时，get_input_act_qspec、get_output_act_qspec、get_weight_qspec 和 get_bias_qspec 可用于从 QuantizationConfig 获取特定模式的 QuantizationSpec。

关于 PT2E 量化流程中的 IR 的注意事项¶

IR 指的是模型的中间表示，例如 torch IR (torch.nn 模块, torch.nn.functional 算子) 或 aten IR (torch.ops.aten.linear, …)。PT2E 量化流程使用 autograd 前的 aten IR (torch.export API 的输出)，以便我们支持训练。如前所示，我们需要在附加注解之前匹配算子或算子模式，所以问题是如何匹配模式？

动机：直接匹配 `aten` IR 的问题¶

最直接的方法可能是直接匹配 aten IR。

示例

for n in gm.graph.nodes:
      if n.op != "call_function" or n.target not in [
          torch.ops.aten.relu.default,
          torch.ops.aten.relu_.default,
      ]:
          continue
      relu_node = n
      maybe_conv_node = n.args[0]
      if (
          not isinstance(maybe_conv_node, Node)
          or maybe_conv_node.op != "call_function"
          or maybe_conv_node.target
          not in [
              torch.ops.aten.conv1d.default,
              torch.ops.aten.conv2d.default,
          ]
      ):
          continue

      # annotate conv and relu nodes
      ...

然而，使用这种 IR 的一个问题是，如果模块或函数式算子的 PyTorch 实现发生变化，表示可能会改变。但这可能是意外的，因为模型用户通常假设当 eager mode 模型代码不变时，他们在程序捕获后也应该得到相同的模型表示。这个问题的具体影响是，如果一个 Quantizer 基于识别 aten IR 模式进行注解，那么在 PyTorch 版本更新后可能无法识别该模式，并且相同的 eager mode 浮点模型可能无法被量化。

建议：使用 `SubgraphMatcherWithNameNodeMap` 进行模式匹配¶

因此，我们建议人们通过 SubgraphMatcherWithNameNodeMap（SubgraphMatcher 的改进版本，使查询用户想要注解的节点更容易）来识别模式，通过捕获一个 torch IR 模式（使用与捕获浮点模型相同的程序捕获），而不是直接使用 aten IR 模式。

示例

def conv_relu_pattern(input, weight, bias):
    conv = torch.nn.functional.conv2d(input, weight, bias)
    output = torch.nn.functional.relu(conv)
    # returns an additional dict that includes a map from name to node that we want to annotate
    return relu, {"input": input, "weight": weight, "bias": bias, "output": output}

matcher = SubgraphMatcherWithNameNodeMap(conv_relu_pattern)
matches = matcher.match(model)
for match in matches:
    # find input and output of the pattern
    # annotate the nodes
    name_node_map = match.name_node_map
    input_node = name_node_map["input"]
    weight_node = name_node_map["weight"]
    bias_node = name_node_map["bias"]
    output_node = name_node_map["relu"]
    input_node.users[0].meta["quantization_annotation"] = ...
    weight_node.users[0].meta["quantization_annotation"] = ...
    bias_node.users[0].meta["quantization_annotation"] = ...
    output_node.meta["quantization_annotation"] = ...

这样，即使 nn 模块和函数式算子的实现发生变化，Quantizer 仍然有效，浮点模型的 aten IR 将会改变，但由于我们再次捕获模式而不是硬编码模式的 aten IR，我们也会得到更新的 aten IR 并且仍然能够匹配模式。

一个需要注意的地方是，如果模式的输入有多个消费者，除了检查 aten 算子 target 之外，我们没有一个好的方法来识别我们想要注解哪个消费者节点。

另一个需要注意的地方是，我们需要确保我们有一个详尽的示例列表（例如 2D、3D、4D 输入，真实输入 vs. 符号输入，training=True vs. training=False 等），以确保覆盖从 torch IR 模式捕获的所有可能的 aten IR 结果。

注意：未来我们可能会提供一些（模式，示例输入列表）或一些预生成的匹配器对象，以便人们可以直接使用它们。

结论¶

通过本教程，我们介绍了 PyTorch 2 中的新量化路径。用户可以学习如何使用 QuantizationAnnotation API 定义一个 BackendQuantizer 并将其集成到 PyTorch 2 Export 量化流程中。QuantizationSpec、SharedQuantizationSpec、FixedQParamsQuantizationSpec 和 DerivedQuantizationSpec 的示例针对特定的注解用例给出。您可以参考 XNNPACKQuantizer 作为示例来开始实现自己的 Quantizer。之后请按照本教程实际量化您的模型。

如何为 PyTorch 2 Export 量化编写一个 `Quantizer`¶

前提条件：¶

引言¶

注解 API¶

1. 注解常见算子模式¶

2. 注解共享量化参数的算子¶

3. 注解固定量化参数的算子¶

4. 注解带有派生量化参数的张量¶

5. Resnet18 的一个玩具示例¶

关于 PT2E 量化流程中的 IR 的注意事项¶

动机：直接匹配 `aten` IR 的问题¶

建议：使用 `SubgraphMatcherWithNameNodeMap` 进行模式匹配¶

结论¶

文档

教程

资源

如何为 PyTorch 2 Export 量化编写一个 Quantizer¶

前提条件：¶

引言¶

注解 API¶

1. 注解常见算子模式¶

2. 注解共享量化参数的算子¶

3. 注解固定量化参数的算子¶

4. 注解带有派生量化参数的张量¶

5. Resnet18 的一个玩具示例¶

关于 PT2E 量化流程中的 IR 的注意事项¶

动机：直接匹配 aten IR 的问题¶

建议：使用 SubgraphMatcherWithNameNodeMap 进行模式匹配¶

结论¶

文档

教程

资源

如何为 PyTorch 2 Export 量化编写一个 `Quantizer`¶

动机：直接匹配 `aten` IR 的问题¶

建议：使用 `SubgraphMatcherWithNameNodeMap` 进行模式匹配¶