float8_dynamic_activation_float8_weight¶
- torchao.quantization.float8_dynamic_activation_float8_weight(activation_dtype: dtype = torch.float8_e4m3fn, weight_dtype: dtype = torch.float8_e4m3fn, granularity: Optional[Union[PerTensor, PerRow, Tuple[Union[PerTensor, PerRow], Union[PerTensor, PerRow]]]] = None, mm_config: Optional[Float8MMConfig] = None)[source]¶
将 float8 动态对称量化应用于线性层的激活和权重。
- 参数:
activation_dtype (torch.dtype) – 激活量化的目标数据类型。默认为 torch.float8_e4m3fn。
weight_dtype (torch.dtype) – 权重量化的目标数据类型。默认为 torch.float8_e4m3fn。
granularity – 量化的粒度。可以是单个粒度(应用于激活和权重),也可以是两个粒度的元组(一个用于激活,一个用于权重)。如果为 None,则默认为两者都为 PerTensor。目前,两种量化需要是相同的类型。并且仅支持 PerTensor 和 PerRow。
mm_config (Float8MMConfig) – 矩阵乘法的配置。默认使用快速累积。