int8_dynamic_activation_int4_weight¶
- torchao.quantization.int8_dynamic_activation_int4_weight(group_size=32, layout=PlainLayout(), mapping_type=MappingType.SYMMETRIC, act_mapping_type=MappingType.ASYMMETRIC)[源代码]¶
将 int8 动态逐 token 非对称激活量化和 int4 逐组权重对称量化应用于线性层。这用于生成 executorch 后端的模型,但目前 executorch 尚不支持从此流程降低量化模型。
- 参数:
group_size – 量化参数,控制量化的粒度,尺寸越小粒度越细
layout – 量化权重张量的布局类型,目前仅支持 MarlinQQQLayout() 和 CutlassInt4PackedLayout()
mapping_type – 权重映射类型,控制权重量化是对称还是非对称
act_mapping_type – 激活映射类型,控制激活量化是对称还是非对称