快捷方式

量化概述

量化是一个减少模型计算精度并降低内存占用的过程。要了解更多信息,请访问ExecuTorch 概念页面。这对于包括可穿戴设备、嵌入式设备和微控制器在内的边缘设备特别有用,这些设备通常具有有限的资源,例如处理能力、内存和电池寿命。通过使用量化,我们可以使我们的模型更有效率,并使它们能够在这些设备上有效运行。

在流程方面,量化发生在 ExecuTorch 堆栈的早期。

ExecuTorch Entry Points

可以在ExecuTorch 教程中找到更详细的工作流程。

量化通常与具有量化运算符实现的执行后端绑定。因此,每个后端都对模型的量化方式有自己的看法,这在特定于后端的 Quantizer 类中表示。 Quantizer 为建模用户提供了关于他们希望模型如何量化的 API,并将用户意图传递给量化工作流程。

后端开发人员需要实现自己的 Quantizer 来表达如何在后端中量化不同的运算符或运算符模式。这是通过量化工作流程提供的注释 API完成的。由于 Quantizer 也是面向用户的,它将公开特定 API 供建模用户配置他们希望模型如何量化。每个后端都应该为其 Quantizer 提供自己的 API 文档。

建模用户将使用特定于其目标后端的 Quantizer 来量化他们的模型,例如 XNNPACKQuantizer

有关使用 XNPACKQuantizer 的示例量化流程、更多文档和教程,请参阅ExecuTorch 教程中的 Performing Quantization 部分。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源