利用英特尔® 高级矩阵扩展¶
简介¶
高级矩阵扩展 (AMX),也称为英特尔® 高级矩阵扩展 (Intel® AMX),是 x86 扩展,引入了两个新组件:一个称为“块”的二维寄存器文件和一个能够对这些块进行操作的块矩阵乘法 (TMUL) 加速器。AMX 旨在对矩阵进行操作,以加速 CPU 上的深度学习训练和推理,非常适合自然语言处理、推荐系统和图像识别等工作负载。
英特尔通过第四代英特尔® 至强® 可扩展处理器和英特尔® AMX 推进 AI 功能,与上一代相比,推理和训练性能提升 3 倍至 10 倍,请参阅 使用英特尔® AMX 加速 AI 工作负载。与运行英特尔® 高级矢量扩展 512 神经网络指令 (Intel® AVX-512 VNNI) 的第三代英特尔至强可扩展处理器相比,运行英特尔 AMX 的第四代英特尔至强可扩展处理器可以每周期执行 2,048 个 INT8 操作,而前者每周期仅执行 256 个 INT8 操作。它们每周期还可以执行 1,024 个 BF16 操作,而前者每周期仅执行 64 个 FP32 操作,请参阅 使用英特尔® AMX 加速 AI 工作负载 第 4 页。有关 AMX 的更多详细信息,请参阅 英特尔® AMX 概述.
PyTorch 中的 AMX¶
PyTorch 利用其后端 oneDNN 利用 AMX 为 BFloat16 和 INT8 量化计算密集型运算符,从而在支持 AMX 的 x86 CPU 上开箱即用地获得更高的性能。有关 oneDNN 的更多详细信息,请参见 oneDNN.
根据生成的执行代码路径,操作由 oneDNN 全权处理。例如,当支持的操作在具有 AMX 支持的硬件平台上执行到 oneDNN 实现时,AMX 指令将在 oneDNN 内部自动调用。由于 oneDNN 是 PyTorch CPU 的默认加速库,因此无需手动操作即可启用 AMX 支持。
利用 AMX 与工作负载的指南¶
本节提供有关如何利用 AMX 与各种工作负载的指南。
BFloat16 数据类型
使用
torch.cpu.amp
或torch.autocast("cpu")
将利用 AMX 加速支持的操作符。
model = model.to(memory_format=torch.channels_last) with torch.cpu.amp.autocast(): output = model(input)
注意
使用 torch.channels_last
内存格式以获得更好的性能。
量化
应用量化将利用 AMX 加速支持的操作符。
torch.compile
当生成的图模型运行到具有支持的操作符的 oneDNN 实现时,将激活 AMX 加速。
注意
在支持 AMX 的 CPU 上使用 PyTorch 时,框架将默认自动启用 AMX 使用。这意味着 PyTorch 将尽可能尝试利用 AMX 功能来加速矩阵乘法操作。但是,需要注意的是,调度到 AMX 内核的决定最终取决于 oneDNN 库的内部优化策略和量化后端,PyTorch 依赖它们来提高性能。PyTorch 和 oneDNN 库在内部如何处理 AMX 利用的具体细节可能会随着框架的更新和改进而发生变化。
可以利用 AMX 的 CPU 操作符:¶
可以利用 AMX 的 BF16 CPU 操作符
conv1d
conv2d
conv3d
conv_transpose1d
conv_transpose2d
conv_transpose3d
bmm
mm
baddbmm
addmm
addbmm
linear
matmul
可以利用 AMX 的量化 CPU 操作符
conv1d
conv2d
conv3d
conv_transpose1d
conv_transpose2d
conv_transpose3d
linear
确认 AMX 是否正在被利用¶
设置环境变量 export ONEDNN_VERBOSE=1
,或使用 torch.backends.mkldnn.verbose
以使 oneDNN 能够转储详细消息。
with torch.backends.mkldnn.verbose(torch.backends.mkldnn.VERBOSE_ON):
with torch.cpu.amp.autocast():
model(input)
例如,获取 oneDNN 详细消息
onednn_verbose,info,oneDNN v2.7.3 (commit 6dbeffbae1f23cbbeae17adb7b5b13f1f37c080e)
onednn_verbose,info,cpu,runtime:OpenMP,nthr:128
onednn_verbose,info,cpu,isa:Intel AVX-512 with float16, Intel DL Boost and bfloat16 support and Intel AMX with bfloat16 and 8-bit integer support
onednn_verbose,info,gpu,runtime:none
onednn_verbose,info,prim_template:operation,engine,primitive,implementation,prop_kind,memory_descriptors,attributes,auxiliary,problem_desc,exec_time
onednn_verbose,exec,cpu,reorder,simple:any,undef,src_f32::blocked:a:f0 dst_f32::blocked:a:f0,attr-scratchpad:user ,,2,5.2561
...
onednn_verbose,exec,cpu,convolution,jit:avx512_core_amx_bf16,forward_training,src_bf16::blocked:acdb:f0 wei_bf16:p:blocked:ABcd16b16a2b:f0 bia_f32::blocked:a:f0 dst_bf16::blocked:acdb:f0,attr-scratchpad:user ,alg:convolution_direct,mb7_ic2oc1_ih224oh111kh3sh2dh1ph1_iw224ow111kw3sw2dw1pw1,0.628906
...
onednn_verbose,exec,cpu,matmul,brg:avx512_core_amx_int8,undef,src_s8::blocked:ab:f0 wei_s8:p:blocked:BA16a64b4a:f0 dst_s8::blocked:ab:f0,attr-scratchpad:user ,,1x30522:30522x768:1x768,7.66382
...
如果为 BFloat16 获得了 avx512_core_amx_bf16
的详细消息,或为 INT8 量化获得 avx512_core_amx_int8
的详细消息,则表示 AMX 已被激活。