快捷方式

autoquant

torchao.quantization.autoquant(model, example_input=None, qtensor_class_list=[<class 'torchao.quantization.autoquant.AQDefaultLinearWeight'>, <class 'torchao.quantization.autoquant.AQInt8WeightOnlyQuantizedLinearWeight'>, <class 'torchao.quantization.autoquant.AQInt8WeightOnlyQuantizedLinearWeight2'>, <class 'torchao.quantization.autoquant.AQInt8DynamicallyQuantizedLinearWeight'>], filter_fn=None, mode=['interpolate', 0.85], manual=False, set_inductor_config=True, supress_autoquant_errors=True, min_sqnr=None, **aq_kwargs)[source]

自动量化是一个过程,它确定对模型每一层进行量化的最快方法,在一组潜在的 qtensor 子类中选择。

自动量化分为三个步骤

1-准备模型:搜索模型中的线性层,并将其权重替换为 AutoQuantizableLinearWeight。 2-形状校准:用户在一个或多个输入上运行模型,记录 AutoQuantizableLinearWeight 看到的激活形状/dtype 的详细信息,以便我们知道在步骤 3 中使用什么形状/dtype 来优化量化操作

AutoQuantizableLinearWeight 记录激活形状/dtype 的详细信息,以便我们知道在步骤 3 中使用什么形状/dtype 来优化量化操作

3-完成自动量化:对于每个 AutoQuantizableLinearWeight,针对 qtensor_class_list 的每个成员,在每个形状/dtype 上运行基准测试。

选择最快的选项,从而获得高性能模型

此 autoquant 函数执行步骤 1。步骤 2 和 3 可以通过简单地运行模型来完成。如果提供了 example_input,此函数也会运行模型(这将完全自动量化模型,除非 manual=True)。此 autoquant api 可以处理已经应用了 torch.compile 的模型,在这种情况下,一旦模型运行并量化,torch.compile 过程通常也会继续进行。

要优化输入形状/dtype 的组合,用户可以设置 manual=True,使用所有期望的形状/dtype 运行模型,然后调用 model.finalize_autoquant 以在记录了期望的输入集后完成量化。

参数:
  • model (torch.nn.Module) – 要自动量化的模型。

  • example_input (Any, 可选) – 模型的示例输入。如果提供,该函数将在此输入上执行前向传递(除非 manual=True,否则将完全自动量化模型)。默认为 None。

  • qtensor_class_list (list, 可选) – 用于量化的一系列张量类。默认为 DEFAULT_AUTOQUANT_CLASS_LIST。

  • filter_fn (callable, 可选) – 应用于模型参数的过滤器函数。默认为 None。

  • mode (list, 可选) – 包含量化模式设置的列表。第一个元素是模式类型(例如,“interpolate”),第二个元素是模式值(例如,0.85)。默认为 [“interpolate”, .85]。

  • manual (bool, 可选) – 是否停止形状校准并在单次运行后进行自动量化(默认值 False),还是等待用户调用 model.finalize_autoquant (True),以便可以记录具有多个形状/dtype 的输入。

  • set_inductor_config (bool, 可选) – 是否自动使用推荐的 inductor 配置设置(默认为 True)

  • supress_autoquant_errors (bool, 可选) – 是否抑制自动量化期间的错误。(默认为 True)

  • min_sqnr (float, 可选) – 量化层的输出与非量化层相比的最小可接受信噪比 (https://en.wikipedia.org/wiki/Signal-to-quantization-noise_ratio),用于过滤

  • impact (输出导致数值过大的量化方法) –

  • resaonable (用户可以从一个) –

  • result (像 40 这样的数字开始,并根据) –

  • **aq_kwargs – 自动量化过程的附加关键字参数。

返回值:

自动量化和包装的模型。如果提供了 example_input,该函数将对输入执行前向传递

并在输入上返回前向传递的结果。

返回类型:

torch.nn.Module

示例用法

torchao.autoquant(torch.compile(model)) model(*example_input)

# 多种输入形状 torchao.autoquant(model, manual=True) model(*example_input1) model(*example_input2) model.finalize_autoquant()

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得您的问题解答

查看资源