博客 – 第 3 页 – PyTorch

博客社区

使用 Triton 加速 GPU 性能：4 月 30 日 PyTorch ATX 活动

由 Red Hat 赞助的 PyTorch ATX Triton 活动于 2025 年 4 月 30 日举行，……

Jason Meaux，ATX PyTorch 负责人 Stephen Watt，Red Hat 副总裁兼杰出工程师2025 年 5 月 20 日

博客

PyTorch/XLA 2.7 版本发布：可用性、vLLM 增强、JAX 桥接、GPU 构建

PyTorch/XLA 是一个 Python 包，它使用 XLA 深度学习编译器来支持 PyTorch...

Pei Zhang, Chris Jones2025 年 5 月 13 日

博客

MetaShuffling：加速 Llama 4 MoE 推理

专家混合 (MoE) 是一种流行的大型语言模型 (LLM) 架构。尽管它减少了...

Shikai Li, Gefei Zuo, Jianyu Huang, Jason Park, Zoey Sun, Xiaozhu Meng, Xiaodong Wang, Hongtao Yu, Changkyu Kim, CQ Tang, Stephen Chen2025 年 5 月 12 日

博客

PyTorch：人工智能的开放语言

主要收获：PyTorch 今天以 Meta 等主要 AI 参与者为基础，为生成式 AI 世界提供支持，...

Joe Spisak (Meta), Luca Antiga (Lightning.AI)2025 年 5 月 7 日

博客社区

PyTorch 韩国用户组 Meetup 回顾：与 PyTorch 核心维护者共同举办的技术会议

3月底，PyTorch 韩国用户组举办了一场特别的聚会，……

Jiho Kim，PyTorch 韩国用户组2025 年 5 月 5 日

博客

FlexAttention 第二部分：用于推理的 FlexAttention

概述在 PyTorch 2.5.0 版本中，我们为希望了解的 ML 研究人员引入了 FlexAttention torch.nn.attention.flex_attention...

Joy Dong, Boyuan Feng, Driss Guessous, Joel Schlosser, Yanbo Liang, Horace He2025 年 4 月 30 日

6x faster Async Checkpointing in PyTorch

博客

PyTorch 异步检查点速度提升 6 倍，使用缓存计划，无 GIL 争用

Meta：Less Wright, Meet Vadakkanchery, Saurabh Mishra, Ela Krepska, Hamid Shojanazeri, Pradeep Fernando Crusoe：Ethan...

Meta 和 Crusoe2025 年 4 月 30 日

Accelerating Large Scale Training and Convergence with PyTorch Float8 Rowwise on Crusoe 2K H200s

博客

在 Crusoe 2K H200s 上使用 PyTorch Float8 Rowwise 加速大规模训练和收敛

Meta：Less Wright, Hamid Shojanazeri, Vasiliy Kuznetsov, Daniel Vega-Myhre, Gokul Nadathur, Will Constable, Tianyu Liu,...

Meta 和 Crusoe2025 年 4 月 28 日

博客

在英特尔® GPU 上加速 PyTorch 2.7

PyTorch 2.7 继续为 Intel® GPU 架构提供重要的功能和性能增强，以简化...

Intel PyTorch 团队2025 年 4 月 25 日

博客

PyTorch 2.7 发布

我们很高兴地宣布 PyTorch® 2.7 (发行说明) 发布！此版本具有：...

PyTorch 团队2025 年 4 月 23 日

Accelerating Whisper on Arm with PyTorch and Hugging Face Transformers

博客

使用 PyTorch 和 Hugging Face Transformers 在 Arm 上加速 Whisper

自动语音识别 (ASR) 彻底改变了我们与技术的互动方式，为...

Pareena Verma, Arm2025 年 4 月 8 日

博客生态系统

SGLang 加入 PyTorch 生态系统：高效的 LLM 服务引擎

我们很高兴地宣布 SGLang 项目已集成到 PyTorch 生态系统中！...

SGLang 团队2025 年 3 月 19 日

Scaling Open Source AI: From Foundation Models to Ecosystem Success

博客社区

PyTorch 亮相 GTC 2025

GTC 将于 2025 年 3 月 17 日至 21 日重返圣何塞。加入 PyTorch 基金会成员 Arm，……

PyTorch 基金会2025 年 3 月 16 日

Scaling Recommendation Systems Training to Thousands of GPUs with 2D Sparse Parallelism

博客

使用 2D 稀疏并行将推荐系统训练扩展到数千个 GPU

在 Meta，推荐系统是向数十亿用户提供相关和个性化广告的基石...

Meta 的 PyTorch 团队：Chunzhi Yang, Rich Zhu, Zain Huda, Liangbei Xu, Xin Zhang, Jiyan Yang, Dennis van der Staay, Wang Zhou, Jin Fang, Jade Nie, Yuxi Hu2025 年 3 月 11 日

博客社区

利用 PyTorch、Fedora 和开源社区赋能人工智能

在浦那举行的 DevConf.IN 2025 上，我有机会在 2 月 28 日主持了一场 PyTorch 聚会。本次会议，……

Sudhir Dharanendraiah2025 年 3 月 7 日

博客

巅峰性能，最小化内存：使用 torch.compile 和 Liger Kernel 优化 torchtune 的性能

LinkedIn：Shivam Sahni, Byron Hsu, Yanning ChenMeta：Ankith Gunapal, Evan Smothers 此博客探讨了...

LinkedIn 和 Meta2025 年 3 月 6 日

Current and New Activation Checkpointing Techniques in PyTorch

博客

PyTorch 中现有及全新的激活检查点技术

随着模型在深度、批次大小和序列长度等方面的扩展，激活内存成为一个...

PyTorch 基金会2025 年 3 月 5 日

博客

使用 PyTorch 加速生成式 AI：Segment Anything 2 – 以低延迟和快速冷启动实现极速推理

这篇文章是我们多系列博客第一篇的后续，该博客专注于如何...

PyTorch 基金会2025 年 2 月 26 日

博客社区

优化 LLM 以提高效率和可持续性

大型语言模型 (LLM) 应用的快速增长与……的快速增长息息相关。

Zach Lasiuk，Arm2025 年 2 月 19 日

博客

解锁 PyTorch 2.6 在英特尔平台上的最新功能

PyTorch* 2.6 已发布，带有一系列令人兴奋的新功能，包括 torch.compile 兼容性...

Intel PyTorch 团队2025 年 2 月 11 日

博客

使用 Triton 加速 GPU 性能：4 月 30 日 PyTorch ATX 活动

PyTorch/XLA 2.7 版本发布：可用性、vLLM 增强、JAX 桥接、GPU 构建

MetaShuffling：加速 Llama 4 MoE 推理

PyTorch：人工智能的开放语言

PyTorch 韩国用户组 Meetup 回顾：与 PyTorch 核心维护者共同举办的技术会议

FlexAttention 第二部分：用于推理的 FlexAttention

PyTorch 异步检查点速度提升 6 倍，使用缓存计划，无 GIL 争用

在 Crusoe 2K H200s 上使用 PyTorch Float8 Rowwise 加速大规模训练和收敛

在英特尔® GPU 上加速 PyTorch 2.7

PyTorch 2.7 发布

使用 PyTorch 和 Hugging Face Transformers 在 Arm 上加速 Whisper

SGLang 加入 PyTorch 生态系统：高效的 LLM 服务引擎

PyTorch 亮相 GTC 2025

使用 2D 稀疏并行将推荐系统训练扩展到数千个 GPU

利用 PyTorch、Fedora 和开源社区赋能人工智能

巅峰性能，最小化内存：使用 torch.compile 和 Liger Kernel 优化 torchtune 的性能

PyTorch 中现有及全新的激活检查点技术

使用 PyTorch 加速生成式 AI：Segment Anything 2 – 以低延迟和快速冷启动实现极速推理

优化 LLM 以提高效率和可持续性

解锁 PyTorch 2.6 在英特尔平台上的最新功能

文档

教程

资源

保持联系以获取更新、活动信息和最新新闻