DRAMA 模型推理效率提升 1.7 倍至 2.3 倍 博客 DRAMA 模型推理效率提升 1.7 倍-2.3 倍 简而言之,NJT(嵌套锯齿张量)将 DRAMA 模型推理效率提升了 1.7 倍至 2.3 倍,使其更…Shreya Goyal2025 年 8 月 22 日
ZenFlow:LLM 训练的无停滞卸载引擎 博客 ZenFlow:LLM 训练的无停滞卸载引擎 引言 ZenFlow 是 DeepSpeed 在 2025 年夏季推出的一项新扩展,旨在作为…Tingfeng Lan, Yusen Wu, Bin Ma, Zhaoyuan Su, Rui Yang, Tekin Bicer, Masahiro Tanaka, Olatunji Ruwase, Dong Li, Yue Cheng2025 年 8 月 20 日
使用 Triton 持久缓存感知分组 GEMM 内核加速 MoE 博客 使用 Triton 持久缓存感知分组 GEMM 内核加速 MoE 在这篇文章中,我们介绍了一个优化的 Triton BF16 分组 GEMM 内核,用于运行训练…Less Wright, Adnan Hoque, Garrett Goon2025 年 8 月 18 日
PyTorch Wheel 变体,Python 打包的前沿 博客 PyTorch Wheel 变体,Python 打包的前沿 uv 的创建者 charliemarsh 的推文 PyTorch 是开发和使用领先的机器学习框架…Eli Uriegas2025 年 8 月 13 日
PyTorch Day China 回顾 博客社区 PyTorch Day China 回顾 2025 年 6 月 7 日,PyTorch Day China 在北京举行,由 PyTorch 基金会联合主办…PyTorch Foundation2025 年 8 月 12 日
在 Opacus 中引入混合精度训练 博客 Opacus 中引入混合精度训练 引言 我们将混合精度和低精度训练与 Opacus 集成,以实现更高的吞吐量和训练…Iden Kalemaj, Huanyu Zhang2025 年 8 月 12 日
使用 ExecuTorch 和 KleidiAI 将生成式 AI 带给大众 博客 使用 ExecuTorch 和 KleidiAI 将生成式 AI 带给大众 主要收获:ExecuTorch 0.7 现在默认启用 KleidiAI,在 Arm CPU 上提供自动加速…Gian Marco Iodice, GenAI 工程主管,Arm;Mary Bennion,生态系统总监,Arm;Digant Desai,软件工程师,Meta2025 年 8 月 11 日
vLLM 北京聚会:推进大规模 LLM 部署 博客社区 vLLM 北京见面会:推进大规模 LLM 部署 2025 年 8 月 2 日,腾讯北京总部举办了一场人工智能领域的重要活动…vLLM 团队2025 年 8 月 7 日
推进 PyTorch 和 ExecuTorch 中的低位操作符:动态内核选择、KleidiAI 和量化绑定的嵌入 博客 推进 PyTorch 和 ExecuTorch 中的低比特运算符:动态内核选择、KleidiAI 和量化绑定嵌入 TorchAO 为 Arm CPU 带来了高性能的低位线性嵌入操作符。在本次更新中,我们…Scott Roy, Digant Desai, Ed Miller, Gian Marco Iodice, Ronan Naughton2025 年 8 月 7 日
2025 年 PyTorch 贡献者奖项提名开放 公告博客 2025 年 PyTorch 贡献者奖提名开放 2025 年 PyTorch 贡献者奖项提名现已开放!这些奖项旨在表彰…PyTorch Foundation2025 年 7 月 31 日
Kubernetes 上的 PyTorch:Kubeflow Trainer 加入 PyTorch 生态系统 博客生态系统 PyTorch on Kubernetes:Kubeflow Trainer 加入 PyTorch 生态系统 我们很高兴地宣布,Kubeflow Trainer 项目已集成到 PyTorch 中……Andrey Velichkevich, Apple; Yuki Iwai, CyberAgent, Inc.; Yuan Tang, Red Hat; Antonin Stefanutti, Red Hat; Johnu George, Nutanix2025 年 7 月 28 日
2025 年 PyTorch 大会日程公布 公告博客 2025 年 PyTorch 大会议程公布 抢先了解 AI 的未来。#PyTorchConf 日程已出!等待终于结束了…PyTorch Foundation2025 年 7 月 23 日
torch.compile 和 Diffusers:实现巅峰性能的实战指南 博客 torch.compile 和 Diffusers:达到巅峰性能的实践指南 Diffusers 是一个首选库,为前沿和开放式扩散模型提供统一接口…Sayak Paul (Hugging Face), Animesh Jain (Meta), Benjamin Bossan (Hugging Face)2025 年 7 月 17 日
在 Opacus 中启用完全分片数据并行 (FSDP2) 博客 在 Opacus 中启用完全分片数据并行(FSDP2) 引言和背景 Opacus 在支持大规模模型的私有训练方面取得了显著进展…Sai Aparna Aketi, Huanyu Zhang2025 年 7 月 7 日
使用 PyTorch DCP 减少分布式检查点的存储占用和带宽使用 博客 使用 PyTorch DCP 减少分布式检查点的存储空间和带宽占用 摘要 PyTorch 分布式检查点 (DCP) 是一个多功能且强大的工具,用于管理模型检查点…Meta: Sibasish Acharya, Marc Horowitz, Pradeep Fernando, Saurabh Mishra IBM: Saransh Gupta, Swaminathan Sundararaman, Raghu Ganti2025 年 7 月 2 日
PyTorch + vLLM = ♥️ 博客 PyTorch + vLLM = ♥️ 主要收获:PyTorch 和 vLLM 对 AI 生态系统都至关重要,并且日益…Simon Mo, Woosuk Kwon, Kaichao You, PyTorch 团队 @Meta2025 年 6 月 25 日
FlagGems 加入 PyTorch 生态系统:Triton 驱动的通用 AI 加速操作符库 博客生态系统 FlagGems 加入 PyTorch 生态系统:由 Triton 驱动的通用 AI 加速算子库 在跨多种 AI 硬件加速大型语言模型的竞赛中,FlagGems 提供了……FlagGems 团队2025 年 6 月 25 日
推出 Flux Fast:让 Flux 在 H100 上飞速运行 博客 介绍 Flux Fast:让 Flux 在 H100 上飞速运行 在我们之前的文章 diffusion-fast 中,我们展示了 Stable Diffusion XL (SDXL) 管道如何…Joel Schlosser (Meta), Christian Puhrsch (Meta), 和 Sayak Paul (Hugging Face)2025 年 6 月 25 日
容错 Llama:在 Crusoe L40S 上每 15 秒模拟 2000 次故障且无需检查点进行训练 博客 容错 Llama:在 Crusoe L40S 上每约 15 秒模拟 2000 次故障且无检查点进行训练 合作者:Less Wright, Howard Huang, Chien-Chin Huang, Crusoe: Martin Cala, Ethan Petersen 简而言之:我们使用了…Tristan Rice, Howard Huang2025 年 6 月 20 日