SuperOffload:在超级芯片上释放大规模 LLM 训练的潜力

TLDR:在单个 NVIDIA GH200 上高效地对 GPT-OSS-20B 和 Qwen3-14B 模型进行全参数微调,以及……
Snowflake 加入 PyTorch 基金会成为高级会员

PyTorch 基金会是一个社区驱动的中心,支持开源 PyTorch 框架和更广泛的……
PyTorch 基金会2025 年 10 月 7 日
当量化不足时:为什么 2:4 稀疏性很重要

TL;DR 结合 2:4 稀疏性和量化提供了一种强大的方法来压缩大型语言模型……
Mohammad Mozaffari, Jesse Cai, Supriya Rao2025 年 10 月 6 日
TorchAO 量化模型和量化方案现已在 HuggingFace Hub 上提供

PyTorch 现在通过与……的合作,提供了 Phi4-mini-instruct、Qwen3、SmolLM3-3B 和 gemma-3-270m-it 的原生量化变体。
使用原生 PyTorch 在英特尔 CPU 上实现高性能量化 LLM 推理

PyTorch 2.8 刚刚发布了一系列激动人心的新功能,包括一个……
英特尔 PyTorch 团队2025 年 9 月 17 日
PyTorch 2.8 为英特尔 GPU 带来原生 XCCL 支持:阿贡国家实验室案例研究

英特尔宣布 PyTorch 2.8 在分布式训练方面有了重大增强:原生集成……
英特尔 PyTorch 团队,阿贡国家实验室2025 年 9 月 12 日
PyTorch 2.8+TorchAO:在英特尔® AI PC 上释放高效 LLM 推理

大型语言模型 (LLM) 彻底改变了我们编写和阅读文档的方式。在过去……
英特尔 PyTorch 团队2025 年 9 月 3 日
使用 TorchAO、MXFP8 和 TorchTitan 在 Crusoe B200 集群上将 2K 规模预训练加速高达 1.28 倍

tldr:使用 MXFP8 训练加速 1.22 倍 - 1.28 倍,与 BF16 相比收敛性相同。我们最近……











