PyTorch 2.7 在 Intel® GPU 架构上持续提供显著的功能和性能增强,以简化 AI 工作流程。旨在 Intel GPU 上进行微调、推理和开发 PyTorch 模型的应用开发者和研究人员,现在可以在 Windows、Linux 和 Windows Linux 子系统 (WSL2) 等各种操作系统上获得一致的用户体验。这一切通过改进安装流程、Eager 模式脚本调试、性能分析器以及图模式 (torch.compile) 部署得以实现。因此,开发者在前端和后端开发中拥有了更统一的 GPU 编程范式,选择也更为丰富。
PyTorch 中 Intel GPU 支持的渐进式改进
自 PyTorch 2.4 以来,我们在每个版本中都对 Intel GPU 的支持进行了稳步改进。在 PyTorch 2.7 中,我们很高兴地宣布,我们已经建立了坚实的基础,使得 Intel GPU 能够在 Windows 和 Linux 上同时支持图模式 (torch.compile) 和 Eager 模式。这涵盖了广泛的 Intel GPU 产品,其中许多产品您可能已经在使用。我们希望这些增强功能能够为您在 AI 研究和开发中解锁更广泛的硬件资源。
- 随着时间的推移,我们已将 Intel GPU 的支持扩展至 Windows 和 Linux,涵盖了以下产品:
- 更简单的安装:torch-xpu PIP 包和更轻松的设置体验。
- 高 ATen 算子覆盖率:结合 SYCL 和 oneDNN,为 Eager 模式提供流畅的功能支持和性能表现。
- 显著的加速效果:通过默认的 TorchInductor 和 Triton 后端,使用 torch.compile 带来了显著提升,并通过 Hugging Face、TIMM 和 TorchBench 基准测试证明了可衡量的性能收益。
查看以下相关发布博客,了解详细的进展:PyTorch 2.4、PyTorch 2.5 以及 PyTorch 2.6。
PyTorch 2.7 的新功能
以下是 PyTorch 2.7 中新增的功能,旨在帮助加速 Intel GPU 上的性能。
- 改进缩放点积注意力 (SDPA) 推理性能:使用 bfloat16 和 float16 加速 Intel GPU 上的注意力机制模型。
借助 PyTorch 2.7 中针对 Intel GPU 的全新 SDPA 优化,在 Eager 模式下,Stable Diffusion 的 float16 推理性能在 Intel® Arc™ B580 显卡和搭载 Intel® Arc™ Graphics 140V 的 Intel® Core™ Ultra 7 258V 处理器上,相比 PyTorch 2.6 版本实现了高达 3 倍的提升。请参阅下方的图 1。

图 1. PyTorch 2.7 相比 PyTorch 2.6 在 Stable Diffusion 上的性能提升
- 在 Windows 11 上为 Intel GPU 启用 torch.compile:提供了与 Linux 上相同的优于 Eager 模式的性能优势。至此,Intel GPU 成为第一个在 Windows 上支持 torch.compile 的加速器。详情请参考 Windows 教程。
图模式 (torch.compile) 首次在 Windows 11 的 Intel GPU 上启用,通过 PyTorch 2.7 实现了与 Linux 上相同的优于 Eager 模式的性能优势。最新的性能数据是基于 PyTorch Dynamo 基准测试套件,在 Windows 上使用 Intel® Arc™ B580 显卡测得的,如图 2 所示展示了 torch.compile 相对于 Eager 模式的加速比。训练和推理均获得了类似的显著改进。

图 2. Windows 上 torch.compile 相对于 Eager 模式的性能提升
- 优化 Intel GPU 上 PyTorch 2 导出后训练量化 (PT2E) 的性能:提供完整的图模式量化流水线,并增强计算效率。详情请参考 PT2E 教程。
- 在 Linux 上启用 AOTInductor 和 torch.export:简化部署工作流程。详情请参考 AOTInductor 教程。
- 在 Windows 和 Linux 上启用性能分析器:辅助模型性能分析。详情请参考 PyTorch 性能分析器教程。
请查阅 Intel GPU 入门指南,获取环境设置和 Intel GPU 快速上手教程。
未来工作
展望未来,我们将继续在未来的 PyTorch 版本中推进 Intel GPU 的上游开发工作,以:
- 实现业界领先的 PyTorch 原生性能:展示 torch.compile 具有竞争力的 GEMM 计算效率,并通过 FlexAttention 和低精度数据类型增强 LLM 模型的性能。
- 拓宽功能兼容性:为 Intel® 数据中心 GPU Max 系列提供分布式 XCCL 后端支持。
- 扩展对 PyTorch 核心生态组件(包括 torchao、torchtune 和 torchtitan)的加速器支持。
关注 PyTorch 开发讨论区,了解有关 Intel GPU 和 CPU 的启用状态及功能规划的更多信息。随着项目的进一步推进,我们将在 GitHub 上创建工单来记录我们的进度。
总结
在本篇博客中,我们回顾了从 PyTorch 2.4 开始的 Intel GPU 上游进展,并重点介绍了 PyTorch 2.7 中加速各种 Intel GPU 上 AI 工作负载性能的新功能。这些新功能(尤其是 Windows 上的 SDPA)在 Intel Arc B580 显卡和搭载 Intel Arc Graphics 140V 的 Intel Core Ultra 7 258V 处理器上,相比 PyTorch 2.6 版本在推理方面(Stable Diffusion, float16)实现了高达 3 倍的提升。此外,Windows 上的 torch.compile 在 Dynamo 基准测试中也展现出了与 Linux 上类似的优于 Eager 模式的性能优势。
相关视频
使用 AOTInductor 在 Intel GPU 上部署已编译的 PyTorch 模型
致谢
感谢以下 PyTorch 维护者在技术讨论和见解方面提供的支持:Nikita Shulga, Jason Ansel, Andrey Talman, Alban Desmaison 以及 Bin Bao。
我们还要感谢 PyTorch 合作者提供的专业支持和指导。
产品和性能信息
Intel Core Ultra 7 258V 测试环境:2200 MHz, 8 核, 8 逻辑处理器,搭载 Intel Arc 140V GPU (16GB),GPU 显存 18.0 GB,使用 Intel 显卡驱动程序 32.0.101.6647 (WHQL 认证), Windows 11 Pro – 24H2。Intel Core Ultra 5 245KF 测试环境:4200 MHz, 14 核, 14 逻辑处理器,Intel Arc B580 显卡,独立显存 12.0 GB,共享显存 15.8 GB,使用 Intel 显卡驱动程序 32.0.101.6647 (WHQL 认证), Windows 11 Enterprise LTSC – 24H2。测试由 Intel 于 2025 年 4 月 8 日完成。
注意事项和免责声明
性能因使用、配置和其他因素而异。请访问性能指数网站了解更多信息。性能结果基于所示配置下的测试日期,可能无法反映所有公开发布的更新。 请参阅备份以获取配置详情。 没有任何产品或组件是绝对安全的。您的成本和结果可能有所不同。英特尔技术可能需要启用硬件、软件或服务激活。
英特尔公司。英特尔、英特尔徽标和其他英特尔标志是英特尔公司或其子公司的商标。其他名称和品牌可能属于他人所有。
AI 免责声明
AI 功能可能需要软件购买、订阅或由软件/平台提供商启用,或者可能具有特定的配置或兼容性要求。详情请参阅 www.intel.com/AIPC。结果可能因具体配置而异。