概述
我们非常高兴地向大家介绍英特尔® 酷睿™ Ultra Series 3 处理器的亮点,以及我们在 PyTorch 中所做的改进,旨在帮助用户在个人电脑 (PC) 和边缘计算领域解锁更广泛的 AI 应用场景。
搭载 Arc B 系列 GPU 的英特尔® 酷睿™ Ultra Series 3 处理器
最新的英特尔® 酷睿™ Ultra Series 3 处理器通过一系列改进,提升了移动 PC 和边缘系统的 AI 能力与性能,其中包括更大规模的集成 GPU:
- 全新的 Xe³ 架构
- 最高 12 个 Xe 核心的 GPU 配置
- 最高 96 个 XMX AI 引擎,提供高达 120 TOPS 的算力
- 最高 96GB 高速 LPDDR5x-9600 内存
GPU 密集的矩阵乘法能力与全系统内存带宽访问的结合,赋予了英特尔® 酷睿™ Ultra Series 3 处理器在同类产品中运行更大模型和更长上下文的独特能力。
用于解锁 AI 能力的 PyTorch 特性
为确保用户能轻松在英特尔平台上解锁 AI 能力,PyTorch 2.10 提供了全面的特性集,旨在兼顾 XPU 后端的效率与灵活性。我们重点强调本次发布的两大支柱:更快的开发周期与 TorchAO 带来的推理性能提升,以及基于 SYCL 的高级扩展性。
PyTorch + TorchAO:“开箱即用”的体验
对于追求即时性能提升和易用性的开发者,PyTorch 2.10 将原生优化与 TorchAO 相结合,后者通过量化技术助力适配更大规模的模型,从而在英特尔® 酷睿™ Ultra Series 3 处理器上确保无缝体验:
- 统一体验:用户在英特尔 XPU 上可以享受到与其他 GPU 平台一致的 PyTorch 使用体验。
- 全面支持
- 丰富的生态系统:原生支持广泛的操作系统和算子。
- 数据类型:全面支持常用数据类型,包括 int4、int8、fp8、float16、bfloat16 和 float32。
- 库集成:PyTorch 2.10 支持英特尔® 酷睿™ Ultra Series 3 处理器,允许用户直接运行来自 Hugging Face Transformers、Diffusers 和 LeRobot 等标准库的模型。
- 性能加速:集成高性能库以加速 Linear 层和 SDPA(缩放点积注意力)等瓶颈算子。
快速示例:使用 TorchAO 进行大模型 (LLM) 推理
安装与快速入门
安装英特尔® GPU 驱动程序
要开启英特尔® GPU 加速,请先安装最新的图形驱动程序:Windows 用户应从 英特尔 Arc 与 Iris Xe 显卡驱动页面下载驱动程序并按照屏幕提示进行安装。Ubuntu 用户请参考 英特尔 GPU 驱动安装指南以获取针对操作系统的设置步骤。
Install PyTorch and other required packages # Install PyTorch with XPU support pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/xpu # Install TorchAO pip install --pre torchao==0.16.0* --index-url https://download.pytorch.org/whl/nightly/xpu
使用 TorchAO 进行 LLM 推理
环境搭建完成后,在英特尔® 酷睿™ Ultra Series 3 处理器上优化和运行 LLM 非常简单。PyTorch 2.10 与 TorchAO 结合,让您只需几行代码即可应用诸如 Int4 仅权重量化 (Int4-weight-only quantization) 等高级量化技术。以下是一个运行 Llama 模型的最小化示例:
import torch from transformers import AutoModelForCausalLM, TorchAoConfig from torchao.quantization import Int4WeightOnlyConfig # Use Meta Llama 3.1 8B Instruct model model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" # --- 1. Create Quantization Configuration --- # Configure Int4 Weight-Only Quantization for XPU quant_config = Int4WeightOnlyConfig( group_size=128, int4_packing_format="plain_int32" ) quantization_config = TorchAoConfig(quant_config) # --- 2. Load and Automatically Quantize --- model = AutoModelForCausalLM.from_pretrained( model_id, device_map="xpu", torch_dtype=torch.float16, quantization_config=quantization_config, )
如需了解更高级的用法和详尽示例,请查看 TorchAO 存储库。
AI PC 和边缘设备正处于提供 AI 体验的最前沿,旨在为用户提供个性化且私密的服务。下表展示了在本地设备上运行主流语言模型时的出色推理延迟表现1。
| 模型 (HF ID) | 指标 | int4a16 (torch.compile) |
| Qwen/Qwen3-0.6B | 首字延迟 (ms) | 58.11 |
| 后续词元延迟 (ms) | 14.84 | |
| Qwen/Qwen3-1.7B | 首字延迟 (ms) | 119.43 |
| 后续词元延迟 (ms) | 20.61 | |
| Qwen/Qwen3-4B | 首字延迟 (ms) | 276.16 |
| 后续词元延迟 (ms) | 33.54 | |
| microsoft/Phi-4-mini-instruct | 首字延迟 (ms) | 293.89 |
| 后续词元延迟 (ms) | 32.89 | |
| microsoft/Phi-4-mini-reasoning | 首字延迟 (ms) | 293.39 |
| 后续词元延迟 (ms) | 33.14 | |
| meta-llama/Llama-3.2-3B-Instruct | 首字延迟 (ms) | 242.29 |
| 后续词元延迟 (ms) | 27.24 | |
| deepseek-ai/DeepSeek-R1-Distill-Llama-8B | 首字延迟 (ms) | 545.76 |
| 后续词元延迟 (ms) | 49.9 | |
| google/gemma-2-2b-it | 首字延迟 (ms) | 212.86 |
| 后续词元延迟 (ms) | 29.24 | |
| mistralai/Mistral-7B-Instruct-v0.2 | 首字延迟 (ms) | 513.32 |
| 后续词元延迟 (ms) | 42.55 |
SYCL 自定义算子:Windows 与 Linux 上的高级扩展性
对于那些需要超越标准算子并追求定制化高性能的开发者,PyTorch 2.10 显著增强了其扩展性能力。
- 跨平台支持:我们将使用 SYCL 的自定义算子支持范围从 Linux 扩展到了 Windows。
- 特定领域内核:此功能使开发者能够通过 PyTorch CPP 扩展 API 直接在英特尔 GPU 上编写并集成高性能的特定领域内核。
- 无缝集成:这允许对算子进行深度定制,从而解锁英特尔® 酷睿™ Ultra Series 3 处理器的特定硬件能力。
如需分步指南,请参考教程: 自定义 C++ 和 CUDA 扩展
英特尔® 酷睿™ Ultra Series 3 上的用户场景展示
边缘场景:视觉与机器人用例
英特尔® 酷睿™ Ultra Series 3 处理器上的边缘计算利用了集成的英特尔® Arc™ 显卡,将对延迟敏感的 AI 工作从云端迁移至本地边缘。对于工业和机器人应用,PyTorch 2.10 提供了统一的 XPU 后端,使您能够以极少的代码修改提升推理吞吐量。
使用 Anomalib 进行视觉检测
在现代制造业中,视觉检测对质量控制至关重要。实时检测细微缺陷需要高精度模型,且需在无延迟的情况下处理高分辨率传感器数据。通过使用Anomalib,开发者可以在搭载集成英特尔® Arc™ 显卡的英特尔® 酷睿™ Ultra Series 3 工业 PC 上快速训练并部署自动化检测流水线。
以下是如何在英特尔® 酷睿™ Ultra Series 3 处理器上通过 PyTorch 2.10 使用 Anomalib 的示例
安装 Anomalib
In your python virtual environment, install torch and anomalib : pip install torch torchvision --index-url https://download.pytorch.org/whl/xpu pip install anomalib
Anomalib API:简洁、清晰、无需样板代码
Anomalib 最突出的特性之一是其优雅简洁的 API,无需编写冗长的样板代码。因此,训练一个生产级的异常检测模型只需几行代码。
以下是如何训练著名的异常检测模型 Patchcore,以检测英特尔® 酷睿™ Ultra Series 3 处理器的 iGPU 上晶体管缺陷的方法:
from anomalib.data import MVTecAD from anomalib.engine import Engine, SingleXPUStrategy, XPUAccelerator from anomalib.models import Patchcore # Initialize components datamodule = MVTecAD(category="transistor") model = Patchcore() engine = Engine( strategy=SingleXPUStrategy(), accelerator=XPUAccelerator(), ) # Train the model engine.train(datamodule=datamodule, model=model)

不到 10 行代码即可训练和测试异常检测模型。
基准测试数据
我们在英特尔® 酷睿™ Ultra Series 2 和英特尔® 酷睿™ Ultra Series 3 处理器上对多个 Anomalib 模型进行了基准测试,以查看最新一代产品的提升幅度。对于支持微调的模型(如 STFPM、FastFlow 和 Patchcore),我们训练了 20 个 epoch——这足以实现稳健的检测精度。对于像 PaDiM 和 DFKDE 这样基于特征提取的模型,“训练”本质上是一次性的特征提取和对“正常”图像分布的拟合。
下图显示了在英特尔® 酷睿™ Ultra 7 处理器 265H 和英特尔® 酷睿™ Ultra X9 处理器 388H 上训练异常检测模型所需的时间2。

图注:英特尔® 酷睿™ Ultra X9 处理器 388H 在大多数模型上实现了 1.4 倍至 1.7 倍的训练加速,其中 WinClip 的增幅最大,达到 2.5 倍(对比英特尔® 酷睿™ Ultra 7 处理器 265H)。
这意味着您训练一个生产级缺陷检测模型的时间比喝一杯咖啡还短。更令人赞叹的是这些结果的实现环境——集成在笔记本电脑处理器中的 GPU。无需笨重的独立显卡,无需专门的 AI 加速器,也无需数据中心基础设施。
这对功耗、数据保密性和外形尺寸至关重要的工业部署至关重要。英特尔® 酷睿™ Ultra Series 3 处理器的 iGPU 与独立 GPU 相比功耗更低,同时仍能提供实际异常检测工作负载所需的性能。在边缘端训练,在边缘端部署——一切都在您手中掌握的硬件上完成。
基于 LeRobot 的机器人技术
除了静态检测,英特尔® 酷睿™ Ultra Series 3 处理器还支持更动态的机器人用例,例如自主操控和导航。LeRobot 库的 XPU 集成突显了机器人软件生态系统的成熟度。
用户只需将设备配置更新为 XPU,即可启用 LeRobot 库中的多个模型。能够原生运行 LeRobot 和 Hugging Face Transformers 等标准库,意味着开发者可以专注于机器人逻辑而非基础设施,从而显著减少启动新项目的精力投入。
安装
以下脚本安装带有 PushT 健身房 (gym) 要求的 LeRobot
pip install lerobot[pusht]
我们可以运行以下 CLI 命令,使用 XPU 设备选项在 PushT 任务上训练扩散策略 (diffusion policy)。
lerobot-train\ --policy.device=xpu \ --output_dir=outputs/train/diffusion_pusht_xpu \ --policy.type=diffusion \ --policy.push_to_hub=false \ --dataset.repo_id=lerobot/pusht \ --seed=100000 \ --env.type=pusht \ --batch_size=64 \ --steps=100000 \ --eval_freq=10000 \ --save_freq=10000 \ Inference of any trained in LeRobot policy can be executed on XPU in similar fashion: lerobot-eval \ --policy.device=xpu \ --policy.path=outputs/train/diffusion_pusht_xpu/ \ checkpoints/last/pretrained_model/ \ --output_dir=outputs/eval/diffusion_pusht/ \ --env.type=pusht \ --eval.n_episodes=500 \ --eval.batch_size=64 \ --policy.use_amp=false
偏好使用 API 的用户可以通过 LeRobot 实现相同的操作。感兴趣的读者可以参阅 LeRobot 文档以获取 LeRobot API 的具体细节。
总结
PyTorch 2.10 为英特尔® 酷睿™ Ultra Series 3 处理器提供了统一且高性能的 XPU 体验,使开发者能够以极少的代码修改,在 AI PC 和边缘设备上运行推理、训练和创意 AI 工作负载。借助 TorchAO 提供的开箱即用低精度优化,以及 SYCL 带来的高级扩展性,Hugging Face、Anomalib、gsplat 和 LeRobot 等流行生态系统均可在英特尔集成 GPU 上原生且高效地运行。
这些能力在英特尔 AI PC 上解锁了全新的工作负载类别——从 LLM 和 VLM 推理到工业视觉、机器人技术以及高保真 3D 场景创建,这些工作负载以往仅限于独立 GPU 或云基础设施。对于英特尔® 酷睿™ Ultra Series 3 平台,PyTorch 2.10 将算力和内存方面的架构进展转化为了切实的开发者价值,使英特尔 AI PC 成为构建 PC 和边缘端下一代 AI 应用的强大、节能且对开发者友好的基石。
通告与免责声明
性能因用途、配置和其他因素而异。请访问性能索引网站了解详情。性能结果基于所示日期的测试配置,可能无法反映所有公开的更新。详情请参阅备份配置。没有任何产品或组件是绝对安全的。您的成本和结果可能有所不同。英特尔技术可能需要启用硬件、软件或服务激活。
没有任何产品或组件是绝对安全的。您的成本和结果可能有所不同。
英特尔技术可能需要启用硬件、软件或服务激活。
© 英特尔公司。Intel、英特尔标识以及其他英特尔标记是英特尔公司或其子公司的商标。其他名称和品牌可能是其他所有者的财产。
性能结果基于 2026 年 2 月的测试。
- 处理器:英特尔® 酷睿™ Ultra X9 388H;内存:32GB;存储:1TB;VGM:默认;显示分辨率:1920×1080;操作系统:Microsoft Windows 11 Pro 26200.7623;集成显卡:英特尔® Arc™ B390 GPU;集成显卡驱动:101.8362;Lenovo 电源计划:Geek Performance;Windows 电源计划:最佳性能
- 处理器:英特尔® 酷睿™ Ultra 7 处理器 265H 和英特尔® 酷睿™ Ultra X9 处理器 388H;内存:16GB;操作系统:Ubuntu 24.04.3 LTS;英特尔 GPU 驱动程序 (libze-intel-gpu1 和 intel-opencl-icd):25.40.35563.4-0;Python:3.12.3;库:PyTorch 2.10, Anomalib 2.2.0;英特尔® 酷睿™ Ultra X9 处理器 388H 在英特尔参考平台上进行测试;英特尔® 酷睿™ Ultra 7 处理器 265H 在客户参考板上进行测试;两个系统均配置为 TDP 65W 和“平衡性能 (6)”能源性能偏差(由 PerfSpect 工具报告)。
工作负载:在英特尔® 酷睿™ Ultra Series 处理器 iGPU 上拟合/微调异常检测模型所需时间的比较。结果取 5 次运行的平均值,为公平起见,排除了最慢和最快的一次运行(MLPerf 风格)。两个设备均使用 batch_size 为 8 且 num_workers 设置为 4 的 Torch 数据加载器。
AI 免责声明:
AI 功能可能需要购买软件、订阅或由软件/平台提供商启用,或者具有特定的配置或兼容性要求。详情请见www.intel.com/AIPC。结果可能有所不同。