PyTorch 2.9:在 Intel GPU 上进行 FlexAttention 优化实践

概述 最新的 LLM 服务框架和模型越来越多地采用注意力变体,例如……
Intel PyTorch and Triton team2026年1月8日
使用 TLX 实现集群启动控制

什么是集群启动控制 (CLC)? Blackwell 引入了集群启动控制 (CLC) 以实现……
Daohang Shi, Hongtao Yu, Manman Ren2025年12月17日
超越量化:将稀疏推理引入 PyTorch

作为开发者,我们都明白这个故事:大型语言模型(LLMs)具有革命性,但它们的……
Kira Selby & Varun Khare (NimbleEdge)2025 年 11 月 13 日
KernelFalcon:通过深度代理实现自主 GPU 内核生成

摘要 我们介绍了 KernelFalcon,一种用于生成 GPU 内核的深度代理架构,它结合了分层……
Laura Wang and the PyTorch Team at Meta2025年11月5日















