fake_quantize_affine_cachemask¶
- torchao.quantization.fake_quantize_affine_cachemask(input: Tensor, block_size: Tuple[int, ...], scale: Tensor, zero_point: Optional[Tensor], quant_dtype: dtype, quant_min: Optional[Union[int, float]] = None, quant_max: Optional[Union[int, float]] = None, zero_point_domain: ZeroPointDomain = ZeroPointDomain.INT) Tuple[Tensor, Tensor] [源代码]¶
用于量化感知训练 (QAT) 的通用伪量化操作。这等效于调用 quantize_affine + dequantize_affine,但不包含 dtype 转换。
注意:与
fake_quantize_affine()
相比,这会消耗更多内存,并返回一个额外的异常值掩码,用于中间量化值。:param 与
fake_quantize_affine()
相同。- 返回:
- 一个包含 2 个元素的元组 (
最终的伪量化值,中间量化值的异常值掩码
)