fake_quantize_affine_cachemask¶
- torchao.quantization.fake_quantize_affine_cachemask(input: Tensor, block_size: Tuple[int, ...], scale: Tensor, zero_point: Optional[Tensor], quant_dtype: dtype, quant_min: Optional[Union[int, float]] = None, quant_max: Optional[Union[int, float]] = None, zero_point_domain: ZeroPointDomain = ZeroPointDomain.INT) Tuple[Tensor, Tensor] [源代码]¶
用于量化感知训练 (QAT) 的通用假量化操作。它等同于调用 quantize_affine + dequantize_affine,但不进行 dtype 转换。
注意:与
fake_quantize_affine()
相比,此操作消耗更多内存,并为中间量化值返回一个额外的离群值掩码。:param 与
fake_quantize_affine()
相同。- 返回值:
- 一个包含以下两项的元组 (
最终的假量化值,中间量化值的离群值掩码
)