torchao.quantization¶
主要量化 API¶
使用 config 转换模型中线性模块的权重,模型会被原地修改 |
|
自动量化是一个过程,它可以在一组潜在的 qtensor 子类中,识别出对模型每一层进行量化的最快方式。 |
quantize_ 的量化 API¶
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
量化原语¶
|
|
是 |
|
|
|
将 float32 高精度浮点张量量化为低精度浮点数,并将结果转换为未打包的浮点格式,格式为 00SEEEMM(对于 fp6_e3m2),其中 S 表示符号位,e 表示指数位,m 表示尾数位 |
|
|
|
用于量化感知训练 (QAT) 的通用伪量化算子。 |
|
用于量化感知训练 (QAT) 的通用伪量化算子。 |
|
执行安全的整数矩阵乘法,考虑了 torch.compile、cublas 和回退情况下的不同路径。 |
|
执行缩放的整数矩阵乘法。 |
|
浮点数如何映射到整数 |
|
指示 zero_point 是在整数域还是浮点域中的枚举 |
|
PyTorch 核心中尚不存在的数据类型的占位符。 |
其他¶
将模型中的线性层替换为其等效的 SmoothFakeDynamicallyQuantizedLinear 层。 |
|
通过计算每个 SmoothFakeDynamicallyQuantizedLinear 层的 smoothquant 比例来准备模型进行推理。 |