torchao.quantization¶
自动量化是一个过程,旨在确定在某些潜在 qtensor 子类上量化模型每一层的最快方法。 |
|
使用 apply_tensor_subclass 转换模型中线性模块的权重,模型将就地修改 |
|
将 int8 动态按 token 非对称激活量化和 int4 按组权重对称量化应用于线性层。这用于生成 executorch 后端的模型,但目前 executorch 尚不支持从此流程中降低量化模型 |
|
将 int8 动态对称按 token 激活量化和 int8 按通道权重量化应用于线性层 |
|
将 uint4 仅权重非对称按组量化应用于线性层,使用 “tensor_core_tiled” 布局以使用 tinygemm 内核加速 |
|
将 int8 仅权重对称按通道量化应用于线性层。 |
|
将 float8 仅权重对称按通道量化应用于线性层。 |
|
将 float8 动态对称量化应用于线性层的激活和权重。 |
|
将 float8 静态对称量化应用于 |
|
将 uintx 仅权重非对称按组量化应用于线性层,使用 uintx 量化,其中 x 是由 dtype 指定的位数 |
|
由 ebits 定义的子字节浮点数据类型:指数位和 mbits:尾数位,例如 |
|
用其 SmoothFakeDynamicallyQuantizedLinear 等效项替换模型中的线性层。 |
|
通过计算每个 SmoothFakeDynamicallyQuantizedLinear 层的 smoothquant 比例,为推理准备模型。 |
|
|
|
|
|
|
|
将 float32 高精度浮点张量量化为低精度浮点数,并将结果转换为具有 00SEEEMM 格式(对于 fp6_e3m2)的解压缩浮点格式,其中 S 表示符号位,e 表示指数位,m 表示尾数位 |
|
|
|
用于量化感知训练 (QAT) 的通用伪量化操作。 |
|
用于量化感知训练 (QAT) 的通用伪量化操作。 |
|
执行安全的整数矩阵乘法,考虑 torch.compile、cublas 和回退情况的不同路径。 |
|
执行缩放的整数矩阵乘法。 |
|
浮点数如何映射到整数 |
|
枚举,指示 zero_point 是在整数域还是浮点域中 |
|
PyTorch 核心中尚不存在的数据类型的占位符。 |