PyTorch 2.9:Intel GPU 上的 FlexAttention 优化实践

概述:最新的 LLM 服务框架和模型越来越多地采用注意力变体,例如……
Intel PyTorch 和 Triton 团队2026 年 1 月 8 日
通过 TLX 启用集群启动控制

什么是集群启动控制 (CLC)?Blackwell 引入了集群启动控制 (CLC) 来实现……
Daohang Shi, Hongtao Yu, Manman Ren2025 年 12 月 17 日
使用 TorchTitan 在 1K AMD GPU 上实现高效的大规模 MoE 预训练
OpenReg:一个自包含的 PyTorch 加速器模拟器

引言:PyTorch 社区正在积极构建一个不断增长的专业加速器生态系统……
Jiahao Chen (华为) & Jiawei Li (华为) & Zesheng Zong (华为)2025 年 11 月 21 日
超越量化:将稀疏推理引入 PyTorch

作为开发者,我们都明白这个故事:大型语言模型(LLMs)具有革命性,但它们的……
Kira Selby & Varun Khare (NimbleEdge)2025 年 11 月 13 日
KernelFalcon:通过深度智能体实现 GPU 内核的自主生成

总结:我们推出了 KernelFalcon,这是一种用于生成 GPU 内核的深度智能体架构,结合了分层……
Laura Wang 和 Meta 的 PyTorch 团队2025 年 11 月 5 日
torchcomms:一个现代化的 PyTorch 通信 API

引言:Torchcomms 是一个全新的实验性、轻量级通信 API,旨在与 PyTorch Distributed 一起使用……
Meta 的 torchcomms 团队2025 年 10 月 22 日
推出 ExecuTorch 1.0:赋能下一代边缘 AI

摘要:ExecuTorch 实现了将 PyTorch 模型无缝、生产级地直接部署到边缘设备(移动、嵌入式、……)
Meta 的 PyTorch 团队2025 年 10 月 22 日











