博客 – PyTorch - PyTorch 框架

博客

PyTorch 2.9 版本博客

我们很高兴地宣布发布 PyTorch® 2.9（发布说明）！此版本包括：…

PyTorch 基金会2025 年 10 月 15 日

博客

SuperOffload：在超级芯片上释放大规模 LLM 训练的强大潜力

太长不看：在单个 NVIDIA GH200 上高效地对 GPT-OSS-20B 和 Qwen3-14B 模型进行全参数微调，以及……

Xinyu Lian, Minjia Zhang (SSAIL Lab, University of Illinois Urbana-Champaign), Masahiro Tanaka (Anyscale), Olatunji Ruwase (Snowflake)2025 年 10 月 9 日

博客社区

当量化不足时：为何 2:4 稀疏性很重要

太长不看：将 2:4 稀疏性与量化结合提供了一种强大的方法来压缩大型语言模型……

Mohammad Mozaffari, Jesse Cai, Supriya Rao2025 年 10 月 6 日

TorchAO Quantized Models and Quantization Recipes Now Available on HuggingFace Hub

博客

TorchAO 量化模型和量化方案现已在 HuggingFace Hub 上可用

PyTorch 现在通过与 Meta 合作提供 Phi4-mini-instruct、Qwen3、SmolLM3-3B 和 gemma-3-270m-it 的原生量化变体……

Meta: Jerry Zhang, Scott Roy, Mergen Nachin, Kimish Patel, Supriya Rao, Jack Zhang, Guang Yang & Unsloth AI: Daniel Han2025 年 9 月 19 日

博客

Meta 内部工作负载 PT2 编译时间缩短经验

PyTorch 2.0 编译的挑战自 PyTorch 2.0 (PT2) 发布以来及其……

Mingming Ding, James Wu, Oguz Ulgen, Sam Larsen, Bob Ren, Laith Sakka, Pian Pawakapan, Animesh Jain, Edward Yang, Yuzhen Huang, Ruilin Chen, Daohang Shi, Shuai Yang, Menglu Yu, Chunzhi Yang, Jade Nie2025 年 9 月 18 日

博客

在 Intel CPU 上使用原生 PyTorch 进行高性能量化 LLM 推理

PyTorch 2.8 刚刚发布，带来了一系列令人兴奋的新功能，包括……

Intel PyTorch 团队2025 年 9 月 17 日

博客

PyTorch 2.8 为 Intel GPU 带来原生 XCCL 支持：来自阿贡国家实验室的案例研究

Intel 宣布 PyTorch 2.8 在分布式训练方面取得了重大增强：原生集成……

Intel PyTorch 团队, 阿贡国家实验室2025 年 9 月 12 日

博客社区

使用 PyTorch 和 vLLM 实现大规模解耦推理

主要观点：PyTorch 和 vLLM 已有机集成，以加速尖端生成式 AI 应用，……

Hongyi Jia, Jinghui Zhang, Lu Fang, Stephen Chen, Yan Cui, Ye (Charlotte) Qi, Zijing Liu2025 年 9 月 12 日

博客

分布式检查点：大规模作业中的高效检查点

随着训练作业规模的增大，抢占、崩溃或基础设施故障等故障的可能性……

Meta: Saurabh Mishra, Meet Vadakkanchery, Pradeep Fernando, Saiteja Samudrala Google: Gerson Kroiz, Jingxin Ye, Viacheslav Kovalevskyi2025 年 9 月 11 日

Annie Tallund at WeAreDevelopers Conference

博客社区

在 Arm 上进行“黄队演练”：深入了解我们的负责任 AI 研讨会

几个月前，我前往柏林参加 WeAreDevelopers 世界大会。期间……

Annie Tallund2025 年 9 月 5 日

博客

快速 2-单纯注意力：TLX 中硬件高效的内核

在这篇博客文章中，我们探讨了论文《快速……》中提出的内核设计细节。

Sijia Chen, Timothy Chou, Aurko Roy†, Hongtao Yu, Yuanwei (Kevin) Fang, Xiaodong Wang, Jiecao Yu, Tony CW Liu†, Chuanhao Zhuge, Josh Fromm, Ying Zhang†, Rohan Anil†, Ajit Mathews2025 年 9 月 5 日

博客

PyTorch 2.8+TorchAO：在 Intel® AI PC 上释放高效 LLM 推理

大型语言模型 (LLM) 已经彻底改变了我们撰写和消费文档的方式。在过去……

Intel PyTorch 团队2025 年 9 月 3 日

博客

使用 TorchAO、MXFP8 和 TorchTitan 在 Crusoe B200 集群上将 2K 规模的预训练加速至 1.28 倍

太长不看：使用 MXFP8 将训练加速 1.22 倍 - 1.28 倍，与 BF16 相比收敛性相同。我们最近……

Less Wright, Vasiliy Kuznetsov, Daniel Vega-Myhre, Driss Guessous, Hamid Shojanazeri, Elias Ellison, Martin Cala, Ethan Petersen2025 年 9 月 3 日

博客

LLM 后训练入门

大型语言模型 (LLM) 彻底改变了我们撰写和消费文档的方式。在过去……

Davide Testuggine2025 年 8 月 26 日

博客

DRAMA 模型推理效率提升 1.7 倍-2.3 倍

太长不看：NJT（嵌套锯齿张量）将 DRAMA 模型推理效率提升 1.7 倍至 2.3 倍，使其更……

Shreya Goyal2025 年 8 月 22 日

博客

ZenFlow：LLM 训练的无停滞卸载引擎

引言 ZenFlow 是 DeepSpeed 在 2025 年夏季引入的一个新扩展，旨在作为一种……

Tingfeng Lan, Yusen Wu, Bin Ma, Zhaoyuan Su, Rui Yang, Tekin Bicer, Masahiro Tanaka, Olatunji Ruwase, Dong Li, Yue Cheng2025 年 8 月 20 日

博客

使用 Triton 持久缓存感知分组 GEMM 内核加速 MoE

在这篇文章中，我们介绍了用于运行训练的优化 Triton BF16 分组 GEMM 内核……

Less Wright, Adnan Hoque, Garrett Goon2025 年 8 月 18 日

博客

PyTorch Wheel 变体，Python 打包的前沿

uv 的创建者 charliemarsh 的推文：PyTorch 是用于开发和……的领先机器学习框架。

Eli Uriegas2025 年 8 月 13 日

博客社区

PyTorch Day China 回顾

2025 年 6 月 7 日，PyTorch Day China 在北京举行，由 PyTorch 基金会联合主办…

PyTorch Foundation2025 年 8 月 12 日

博客

Opacus 中引入混合精度训练

引言我们将混合精度和低精度训练与 Opacus 集成，以实现更高的吞吐量和训练……

Iden Kalemaj, Huanyu Zhang2025 年 8 月 12 日

博客

PyTorch 2.9 版本博客

SuperOffload：在超级芯片上释放大规模 LLM 训练的强大潜力

当量化不足时：为何 2:4 稀疏性很重要

TorchAO 量化模型和量化方案现已在 HuggingFace Hub 上可用

Meta 内部工作负载 PT2 编译时间缩短经验

在 Intel CPU 上使用原生 PyTorch 进行高性能量化 LLM 推理

PyTorch 2.8 为 Intel GPU 带来原生 XCCL 支持：来自阿贡国家实验室的案例研究

使用 PyTorch 和 vLLM 实现大规模解耦推理

分布式检查点：大规模作业中的高效检查点

在 Arm 上进行“黄队演练”：深入了解我们的负责任 AI 研讨会

快速 2-单纯注意力：TLX 中硬件高效的内核

PyTorch 2.8+TorchAO：在 Intel® AI PC 上释放高效 LLM 推理

使用 TorchAO、MXFP8 和 TorchTitan 在 Crusoe B200 集群上将 2K 规模的预训练加速至 1.28 倍

LLM 后训练入门

DRAMA 模型推理效率提升 1.7 倍-2.3 倍

ZenFlow：LLM 训练的无停滞卸载引擎

使用 Triton 持久缓存感知分组 GEMM 内核加速 MoE

PyTorch Wheel 变体，Python 打包的前沿

PyTorch Day China 回顾

Opacus 中引入混合精度训练

文档

教程

资源

保持联系以获取更新、活动信息和最新新闻