快捷方式

量化精度调试

本文档提供了提高量化精度的总体策略。如果量化模型与原始模型相比存在误差,我们可以将误差分为以下几类

  1. 数据不敏感误差 - 由固有的模型量化误差引起,大部分输入数据存在较大误差

  2. 数据敏感误差 - 由异常输入数据引起,小部分输入数据存在较大误差

  3. 实现误差 - 量化内核与参考实现不匹配

数据不敏感误差

通用技巧

  1. 对于 PTQ,请确保您用于校准的数据能够代表您的数据集。例如,对于分类问题,一般准则是每个类别中都有多个样本,并且样本总数应至少为 100。使用更多数据进行校准除了校准时间外,没有任何损失。

  2. 如果您的模型具有 Conv-BN 或 Linear-BN 模式,请考虑融合它们。如果您使用 FX 图模式量化,则工作流程会自动完成此操作。如果您使用 Eager 模式量化,则可以使用 torch.ao.quantization.fuse_modules API 手动完成此操作。

  3. 提高有问题的运算符的 dtype 精度。通常,fp32 的精度最高,其次是 fp16,然后是动态量化 int8,最后是静态量化 int8。

    1. 注意:这是以性能换取精度。

    2. 注意:每个后端每个运算符可用的内核 dtype 可能会有所不同。

    3. 注意:dtype 转换会增加额外的性能成本。例如,与 fp32_op -> fp32_op -> quant -> int8_op -> int8_op -> dequant 相比,fp32_op -> quant -> int8_op -> dequant -> fp32_op -> quant -> int8_op -> dequant 会产生性能损失,因为需要进行更多 dtype 转换。

  4. 如果您使用 PTQ,请考虑使用 QAT 来弥补量化造成的一些精度损失。

Int8 量化技巧

  1. 如果您使用按张量权重进行量化,请考虑使用按通道权重进行量化。

  2. 如果您在 fbgemm 上进行推理,请确保如果您的 CPU 是 Cooperlake 或更新版本,则将 reduce_range 参数设置为 False,否则设置为 True

  3. 审核不同样本的输入激活分布变化。如果此变化很大,则该层可能适用于动态量化,但不适用于静态量化。

数据敏感误差

如果您使用静态量化,并且一小部分输入数据导致较高的量化误差,则可以尝试

  1. 调整您的校准数据集,使其更能代表您的推理数据集。

  2. 手动检查(使用数值套件)哪些层具有较高的量化误差。对于这些层,请考虑将它们保留在浮点数中,或调整观察者设置以选择更好的比例和零点。

实现误差

如果您将 PyTorch 量化与您自己的后端一起使用,您可能会看到操作的参考实现(例如 dequant -> op_fp32 -> quant)与目标硬件上运算符的量化实现(例如 op_int8)之间存在差异。这可能意味着以下两种情况之一

  1. 由于目标内核在目标硬件上相对于 fp32/cpu 的特定行为,这些差异(通常很小)是预期的。这种情况的一个例子是在整数 dtype 中累积。除非内核保证与参考实现按位等效,否则这是预期的。

  2. 目标硬件上的内核存在精度问题。在这种情况下,请联系内核开发人员。

数值调试工具(原型)

警告

数值调试工具是早期原型,可能会发生变化。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源