博客

PyTorch 2.10+TorchAO:在 Intel® Core™ Ultra 第三代处理器上赋能 AIPC 场景

概述

我们非常高兴地向大家介绍英特尔® 酷睿™ Ultra Series 3 处理器的亮点,以及我们在 PyTorch 中所做的改进,旨在帮助用户在个人电脑 (PC) 和边缘计算领域解锁更广泛的 AI 应用场景。

搭载 Arc B 系列 GPU 的英特尔® 酷睿™ Ultra Series 3 处理器

最新的英特尔® 酷睿™ Ultra Series 3 处理器通过一系列改进,提升了移动 PC 和边缘系统的 AI 能力与性能,其中包括更大规模的集成 GPU:

  • 全新的 Xe³ 架构
  • 最高 12 个 Xe 核心的 GPU 配置
  • 最高 96 个 XMX AI 引擎,提供高达 120 TOPS 的算力
  • 最高 96GB 高速 LPDDR5x-9600 内存

GPU 密集的矩阵乘法能力与全系统内存带宽访问的结合,赋予了英特尔® 酷睿™ Ultra Series 3 处理器在同类产品中运行更大模型和更长上下文的独特能力。

用于解锁 AI 能力的 PyTorch 特性

为确保用户能轻松在英特尔平台上解锁 AI 能力,PyTorch 2.10 提供了全面的特性集,旨在兼顾 XPU 后端的效率与灵活性。我们重点强调本次发布的两大支柱:更快的开发周期与 TorchAO 带来的推理性能提升,以及基于 SYCL 的高级扩展性

PyTorch + TorchAO:“开箱即用”的体验

对于追求即时性能提升和易用性的开发者,PyTorch 2.10 将原生优化与 TorchAO 相结合,后者通过量化技术助力适配更大规模的模型,从而在英特尔® 酷睿™ Ultra Series 3 处理器上确保无缝体验:

  • 统一体验:用户在英特尔 XPU 上可以享受到与其他 GPU 平台一致的 PyTorch 使用体验。
  • 全面支持
    • 丰富的生态系统:原生支持广泛的操作系统和算子。
    • 数据类型:全面支持常用数据类型,包括 int4、int8、fp8、float16、bfloat16 和 float32。
    • 库集成:PyTorch 2.10 支持英特尔® 酷睿™ Ultra Series 3 处理器,允许用户直接运行来自 Hugging Face Transformers、Diffusers 和 LeRobot 等标准库的模型。
  • 性能加速:集成高性能库以加速 Linear 层和 SDPA(缩放点积注意力)等瓶颈算子。

快速示例:使用 TorchAO 进行大模型 (LLM) 推理

安装与快速入门

安装英特尔® GPU 驱动程序

要开启英特尔® GPU 加速,请先安装最新的图形驱动程序:Windows 用户应从 英特尔 Arc 与 Iris Xe 显卡驱动页面下载驱动程序并按照屏幕提示进行安装。Ubuntu 用户请参考 英特尔 GPU 驱动安装指南以获取针对操作系统的设置步骤。

Install PyTorch and other required packages

# Install PyTorch with XPU support
pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/xpu

# Install TorchAO
pip install --pre torchao==0.16.0* --index-url https://download.pytorch.org/whl/nightly/xpu

使用 TorchAO 进行 LLM 推理

环境搭建完成后,在英特尔® 酷睿™ Ultra Series 3 处理器上优化和运行 LLM 非常简单。PyTorch 2.10 与 TorchAO 结合,让您只需几行代码即可应用诸如 Int4 仅权重量化 (Int4-weight-only quantization) 等高级量化技术。以下是一个运行 Llama 模型的最小化示例:

import torch
from transformers import AutoModelForCausalLM, TorchAoConfig
from torchao.quantization import Int4WeightOnlyConfig

# Use Meta Llama 3.1 8B Instruct model
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

# --- 1. Create Quantization Configuration ---
# Configure Int4 Weight-Only Quantization for XPU
quant_config = Int4WeightOnlyConfig(
    group_size=128,
    int4_packing_format="plain_int32"
)
quantization_config = TorchAoConfig(quant_config)

# --- 2. Load and Automatically Quantize ---
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="xpu",
    torch_dtype=torch.float16,
    quantization_config=quantization_config,
)

如需了解更高级的用法和详尽示例,请查看 TorchAO 存储库

AI PC 和边缘设备正处于提供 AI 体验的最前沿,旨在为用户提供个性化且私密的服务。下表展示了在本地设备上运行主流语言模型时的出色推理延迟表现1

模型 (HF ID) 指标 int4a16 (torch.compile)
Qwen/Qwen3-0.6B 首字延迟 (ms) 58.11
  后续词元延迟 (ms) 14.84
Qwen/Qwen3-1.7B 首字延迟 (ms) 119.43
  后续词元延迟 (ms) 20.61
Qwen/Qwen3-4B 首字延迟 (ms) 276.16
  后续词元延迟 (ms) 33.54
microsoft/Phi-4-mini-instruct 首字延迟 (ms) 293.89
  后续词元延迟 (ms) 32.89
microsoft/Phi-4-mini-reasoning 首字延迟 (ms) 293.39
  后续词元延迟 (ms) 33.14
meta-llama/Llama-3.2-3B-Instruct 首字延迟 (ms) 242.29
  后续词元延迟 (ms) 27.24
deepseek-ai/DeepSeek-R1-Distill-Llama-8B 首字延迟 (ms) 545.76
  后续词元延迟 (ms) 49.9
google/gemma-2-2b-it 首字延迟 (ms) 212.86
  后续词元延迟 (ms) 29.24
mistralai/Mistral-7B-Instruct-v0.2 首字延迟 (ms) 513.32
  后续词元延迟 (ms) 42.55

SYCL 自定义算子:Windows 与 Linux 上的高级扩展性

对于那些需要超越标准算子并追求定制化高性能的开发者,PyTorch 2.10 显著增强了其扩展性能力。

  • 跨平台支持:我们将使用 SYCL 的自定义算子支持范围从 Linux 扩展到了 Windows。
  • 特定领域内核:此功能使开发者能够通过 PyTorch CPP 扩展 API 直接在英特尔 GPU 上编写并集成高性能的特定领域内核。
  • 无缝集成:这允许对算子进行深度定制,从而解锁英特尔® 酷睿™ Ultra Series 3 处理器的特定硬件能力。

如需分步指南,请参考教程: 自定义 C++ 和 CUDA 扩展

英特尔® 酷睿™ Ultra Series 3 上的用户场景展示

边缘场景:视觉与机器人用例

英特尔® 酷睿™ Ultra Series 3 处理器上的边缘计算利用了集成的英特尔® Arc™ 显卡,将对延迟敏感的 AI 工作从云端迁移至本地边缘。对于工业和机器人应用,PyTorch 2.10 提供了统一的 XPU 后端,使您能够以极少的代码修改提升推理吞吐量。

使用 Anomalib 进行视觉检测

在现代制造业中,视觉检测对质量控制至关重要。实时检测细微缺陷需要高精度模型,且需在无延迟的情况下处理高分辨率传感器数据。通过使用Anomalib,开发者可以在搭载集成英特尔® Arc™ 显卡的英特尔® 酷睿™ Ultra Series 3 工业 PC 上快速训练并部署自动化检测流水线。

以下是如何在英特尔® 酷睿™ Ultra Series 3 处理器上通过 PyTorch 2.10 使用 Anomalib 的示例

安装 Anomalib

In your python virtual environment, install torch and anomalib : 

pip install torch torchvision --index-url https://download.pytorch.org/whl/xpu

pip install anomalib

Anomalib API:简洁、清晰、无需样板代码

Anomalib 最突出的特性之一是其优雅简洁的 API,无需编写冗长的样板代码。因此,训练一个生产级的异常检测模型只需几行代码。

以下是如何训练著名的异常检测模型 Patchcore,以检测英特尔® 酷睿™ Ultra Series 3 处理器的 iGPU 上晶体管缺陷的方法:

from anomalib.data import MVTecAD 
from anomalib.engine import Engine, SingleXPUStrategy, XPUAccelerator 
from anomalib.models import Patchcore 

# Initialize components 
datamodule = MVTecAD(category="transistor") 
model = Patchcore() 
engine = Engine( 
    strategy=SingleXPUStrategy(), 
    accelerator=XPUAccelerator(), 
) 
# Train the model 
engine.train(datamodule=datamodule, model=model)

不到 10 行代码即可训练和测试异常检测模型。

基准测试数据

我们在英特尔® 酷睿™ Ultra Series 2 和英特尔® 酷睿™ Ultra Series 3 处理器上对多个 Anomalib 模型进行了基准测试,以查看最新一代产品的提升幅度。对于支持微调的模型(如 STFPM、FastFlow 和 Patchcore),我们训练了 20 个 epoch——这足以实现稳健的检测精度。对于像 PaDiM 和 DFKDE 这样基于特征提取的模型,“训练”本质上是一次性的特征提取和对“正常”图像分布的拟合。

下图显示了在英特尔® 酷睿™ Ultra 7 处理器 265H 和英特尔® 酷睿™ Ultra X9 处理器 388H 上训练异常检测模型所需的时间2

图注:英特尔® 酷睿™ Ultra X9 处理器 388H 在大多数模型上实现了 1.4 倍至 1.7 倍的训练加速,其中 WinClip 的增幅最大,达到 2.5 倍(对比英特尔® 酷睿™ Ultra 7 处理器 265H)。

这意味着您训练一个生产级缺陷检测模型的时间比喝一杯咖啡还短。更令人赞叹的是这些结果的实现环境——集成在笔记本电脑处理器中的 GPU。无需笨重的独立显卡,无需专门的 AI 加速器,也无需数据中心基础设施。

这对功耗、数据保密性和外形尺寸至关重要的工业部署至关重要。英特尔® 酷睿™ Ultra Series 3 处理器的 iGPU 与独立 GPU 相比功耗更低,同时仍能提供实际异常检测工作负载所需的性能。在边缘端训练,在边缘端部署——一切都在您手中掌握的硬件上完成。

基于 LeRobot 的机器人技术

除了静态检测,英特尔® 酷睿™ Ultra Series 3 处理器还支持更动态的机器人用例,例如自主操控和导航。LeRobot 库的 XPU 集成突显了机器人软件生态系统的成熟度。

用户只需将设备配置更新为 XPU,即可启用 LeRobot 库中的多个模型。能够原生运行 LeRobot 和 Hugging Face Transformers 等标准库,意味着开发者可以专注于机器人逻辑而非基础设施,从而显著减少启动新项目的精力投入。

安装

以下脚本安装带有 PushT 健身房 (gym) 要求的 LeRobot

pip install lerobot[pusht]

我们可以运行以下 CLI 命令,使用 XPU 设备选项在 PushT 任务上训练扩散策略 (diffusion policy)。

lerobot-train\ 
    --policy.device=xpu \ 
    --output_dir=outputs/train/diffusion_pusht_xpu \ 
    --policy.type=diffusion \ 
    --policy.push_to_hub=false \ 
    --dataset.repo_id=lerobot/pusht \ 
    --seed=100000 \ 
    --env.type=pusht \  
    --batch_size=64 \ 
    --steps=100000 \ 
    --eval_freq=10000 \ 
    --save_freq=10000 \
Inference of any trained in LeRobot policy can be executed on XPU in similar fashion:
lerobot-eval \ 
    --policy.device=xpu \ 
    --policy.path=outputs/train/diffusion_pusht_xpu/ \
checkpoints/last/pretrained_model/ \ 
    --output_dir=outputs/eval/diffusion_pusht/ \ 
    --env.type=pusht \ 
    --eval.n_episodes=500 \ 
    --eval.batch_size=64 \ 
    --policy.use_amp=false

偏好使用 API 的用户可以通过 LeRobot 实现相同的操作。感兴趣的读者可以参阅 LeRobot 文档以获取 LeRobot API 的具体细节。

总结

PyTorch 2.10 为英特尔® 酷睿™ Ultra Series 3 处理器提供了统一且高性能的 XPU 体验,使开发者能够以极少的代码修改,在 AI PC 和边缘设备上运行推理、训练和创意 AI 工作负载。借助 TorchAO 提供的开箱即用低精度优化,以及 SYCL 带来的高级扩展性,Hugging Face、Anomalib、gsplat 和 LeRobot 等流行生态系统均可在英特尔集成 GPU 上原生且高效地运行。

这些能力在英特尔 AI PC 上解锁了全新的工作负载类别——从 LLM 和 VLM 推理到工业视觉、机器人技术以及高保真 3D 场景创建,这些工作负载以往仅限于独立 GPU 或云基础设施。对于英特尔® 酷睿™ Ultra Series 3 平台,PyTorch 2.10 将算力和内存方面的架构进展转化为了切实的开发者价值,使英特尔 AI PC 成为构建 PC 和边缘端下一代 AI 应用的强大、节能且对开发者友好的基石。

通告与免责声明

性能因用途、配置和其他因素而异。请访问性能索引网站了解详情。性能结果基于所示日期的测试配置,可能无法反映所有公开的更新。详情请参阅备份配置。没有任何产品或组件是绝对安全的。您的成本和结果可能有所不同。英特尔技术可能需要启用硬件、软件或服务激活。

没有任何产品或组件是绝对安全的。您的成本和结果可能有所不同。

英特尔技术可能需要启用硬件、软件或服务激活。

© 英特尔公司。Intel、英特尔标识以及其他英特尔标记是英特尔公司或其子公司的商标。其他名称和品牌可能是其他所有者的财产。

性能结果基于 2026 年 2 月的测试。

  1. 处理器:英特尔® 酷睿™ Ultra X9 388H;内存:32GB;存储:1TBVGM:默认;显示分辨率:1920×1080;操作系统:Microsoft Windows 11 Pro 26200.7623集成显卡:英特尔® Arc™ B390 GPU;集成显卡驱动:101.8362Lenovo 电源计划:Geek Performance;Windows 电源计划:最佳性能
  1. 处理器:英特尔® 酷睿™ Ultra 7 处理器 265H 和英特尔® 酷睿™ Ultra X9 处理器 388H;内存:16GB;操作系统:Ubuntu 24.04.3 LTS;英特尔 GPU 驱动程序 (libze-intel-gpu1 和 intel-opencl-icd):25.40.35563.4-0;Python:3.12.3;库:PyTorch 2.10, Anomalib 2.2.0;英特尔® 酷睿™ Ultra X9 处理器 388H 在英特尔参考平台上进行测试;英特尔® 酷睿™ Ultra 7 处理器 265H 在客户参考板上进行测试;两个系统均配置为 TDP 65W 和“平衡性能 (6)”能源性能偏差(由 PerfSpect 工具报告)。

工作负载:在英特尔® 酷睿™ Ultra Series 处理器 iGPU 上拟合/微调异常检测模型所需时间的比较。结果取 5 次运行的平均值,为公平起见,排除了最慢和最快的一次运行(MLPerf 风格)。两个设备均使用 batch_size 为 8 且 num_workers 设置为 4 的 Torch 数据加载器。

AI 免责声明:
AI 功能可能需要购买软件、订阅或由软件/平台提供商启用,或者具有特定的配置或兼容性要求。详情请见www.intel.com/AIPC。结果可能有所不同。