使用算子融合加速 Mamba2

摘要:在这篇文章中,我们讨论了如何优化 Mamba-2 状态空间对偶 (SSD) 模块……
Rishi Astra, Tri Dao, Adnan Hoque2026 年 2 月 6 日
PyTorch 2.9:Intel GPU 上的 FlexAttention 优化实践

概述:最新的大语言模型推理框架和模型越来越多地采用注意力变体,例如……
Intel PyTorch 和 Triton 团队2026 年 1 月 8 日
通过 TLX 启用集群启动控制

什么是集群启动控制 (CLC)?Blackwell 引入了集群启动控制 (CLC) 以启用……
Daohang Shi, Hongtao Yu, Manman Ren2025 年 12 月 17 日
PyTorch 基金会出席 NeurIPS 2025:PyTorch 社区亮点、会议及收获

NeurIPS 2025 汇集了来自人工智能社区的研究人员、工程师、维护者和生态系统贡献者。……
PyTorch 基金会2025 年 12 月 16 日
利用 TorchTitan 在 1000 张 AMD GPU 上进行高效大规模 MoE 预训练














