autoquant¶

torchao.quantization.autoquant(model, example_input=None, qtensor_class_list=[<class 'torchao.quantization.autoquant.AQDefaultLinearWeight'>, <class 'torchao.quantization.autoquant.AQInt8WeightOnlyQuantizedLinearWeight'>, <class 'torchao.quantization.autoquant.AQInt8WeightOnlyQuantizedLinearWeight2'>, <class 'torchao.quantization.autoquant.AQInt8DynamicallyQuantizedLinearWeight'>], filter_fn=None, mode=['interpolate', 0.85], manual=False, set_inductor_config=True, supress_autoquant_errors=True, min_sqnr=None, **aq_kwargs)[源码]¶

自动量化是一个过程，它识别出在给定一组潜在 qtensor 子类中，对模型的每一层进行量化的最快方式。

自动量化分三个步骤进行

1-准备模型：搜索模型中的 Linear 层，将其权重替换为 AutoQuantizableLinearWeight。

2-形状校准：用户在一个或多个输入上运行模型，记录 AutoQuantizableLinearWeight 看到的激活形状/数据类型的详细信息，以便我们在步骤 3 中优化量化操作时知道使用什么形状/数据类型

3-完成自动量化：对于每个 AutoQuantizableLinearWeight，针对 qtensor_class_list 中的每个成员，在每种形状/数据类型上运行基准测试。: 选择最快的选项，从而得到一个高性能模型

此 autoquant 函数执行步骤 1。步骤 2 和 3 可以通过简单地运行模型来完成。如果提供了 example_input，此函数也会运行模型（这将完成步骤 2 和 3）。此 autoquant API 可以处理已经应用了 torch.compile 的模型，在这种情况下，一旦模型运行并完成量化，torch.compile 过程也会照常进行。

为了优化输入形状/数据类型的组合，用户可以将 manual 设置为 True，使用所有所需的形状/数据类型运行模型，然后在记录所需的输入集后调用 model.finalize_autoquant 来完成量化。

参数：

model (torch.nn.Module) – 要自动量化的模型。
example_input (Any, optional) – 模型的示例输入。如果提供，函数将对此输入执行一次前向传播（这将完全自动量化模型，除非 manual=True）。默认为 None。
qtensor_class_list (list, optional) – 用于量化的张量类列表。默认为 DEFAULT_AUTOQUANT_CLASS_LIST。
filter_fn (callable, optional) – 应用于模型参数的过滤函数。默认为 None。
mode (list, optional) – 包含量化模式设置的列表。第一个元素是模式类型（例如，“interpolate”），第二个元素是模式值（例如，0.85）。默认为 [“interpolate”, .85]。
manual (bool, optional) – 是否在单次运行后停止形状校准并执行自动量化（默认 False），还是等待用户调用 model.finalize_autoquant (True)，以便记录多种形状/数据类型的输入。
set_inductor_config (bool, optional) – 是否自动使用推荐的 inductor 配置设置（默认为 True）
supress_autoquant_errors (bool, optional) – 是否在自动量化过程中抑制错误。（默认为 True）
min_sqnr (float, optional) – 量化层输出与非量化层输出的最小可接受信噪比（信号量化噪声比，https://en.wikipedia.org/wiki/Signal-to-quantization-noise_ratio），这用于过滤掉
impact (导致过大数值影响的量化方法，) –
reasonable (用户可以从一个) –
result (合理的数值（例如 40）开始，并根据结果进行调整) –
**aq_kwargs – 自动量化过程的其他关键字参数。

返回值：

自动量化并包装后的模型。如果提供了 example_input，函数将执行一次前向传播: 并返回前向传播的结果。

返回类型：

torch.nn.Module

示例用法

torchao.autoquant(torch.compile(model)) model(*example_input)

# 多种输入形状 torchao.autoquant(model, manual=True) model(*example_input1) model(*example_input2) model.finalize_autoquant()

autoquant¶

文档

教程

资源