在 PyTorch 中启用高级 GPU 功能 – Warp 专门化 博客 在 PyTorch 中启用高级 GPU 功能 – Warp 专门化 Meta: Hongtao Yu, Manman Ren, Bert Maher, Shane NayNVIDIA: Gustav Zhu, Shuhao Jiang 在此……Meta 和 NVIDIA2025 年 2 月 5 日
PyTorch 2.6 发布博客 博客 PyTorch 2.6 发布博客 我们很高兴地宣布 PyTorch® 2.6(发布说明)的发布!此版本包含……PyTorch 基金会2025 年 1 月 29 日
PyTorch 技术咨询委员会 (TAC) 2025 年的优先事项 博客 PyTorch 技术咨询委员会 (TAC) 2025 年优先事项 2024 年是 PyTorch 令人难以置信的增长之年。随着 2025 年的持续……Luca Antiga, PyTorch TAC 主席2025 年 1 月 28 日
英特尔如何利用 PyTorch 通过英特尔 Arc GPU 赋能生成式 AI 博客 英特尔如何通过英特尔锐炫™ GPU 使用 PyTorch 赋能生成式 AI 英特尔一直处于技术创新的前沿,其最近的探索涉及…PyTorch 基金会2025 年 1 月 24 日
将 PyTorch 社区聚集在一起 博客社区 将 PyTorch 社区聚集在一起 当我们迈入新的一年,是时候回顾一下……Eli Uriegas, Meta 和 Jennifer Bly, PyTorch 基金会2025 年 1 月 22 日
使用 GemLite、TorchAO 和 SGLang 加速 LLM 推理 博客 使用 GemLite、TorchAO 和 SGLang 加速 LLM 推理 大型语言模型 (LLM) 通常是资源密集型的,需要大量的内存、计算和……PyTorch、Mobius Labs 和 SGLang 团队2025 年 1 月 21 日
通过 Arm 和 GitHub 协作简化 PyTorch 的 MLOps 工作流程 社区 通过 Arm 和 GitHub 协作简化 PyTorch 的 MLOps 工作流程 PyTorch 是最广泛使用且最强大的深度学习框架之一,用于……Eric Sondhi, Arm2025 年 1 月 15 日
英特尔® 至强® 处理器上 PyTorch 2.5 的 GenAI 加速 博客 在英特尔® 至强® 处理器上为 PyTorch 2.5 提供 GenAI 加速 这篇博客是关于使用……加速生成式 AI 模型系列的第五篇。英特尔 PyTorch 团队2025 年 1 月 14 日
通过 PyTorch 多设备支持集成 Ascend 后端和 Torchtune 博客 通过 PyTorch 多设备支持将昇腾后端与 Torchtune 集成 在这篇博客中,我们将简要介绍 torchtune、Ascend 后端,并演示 torchtune 如何……华为 PyTorch 团队:李晨光(华为)、曹梦卿(华为)2025 年 1 月 9 日
适用于 PyTorch 的高性能低位运算符 博客 适用于 PyTorch 的高性能低比特位算子 我们很高兴地宣布添加了具有低位权重(1-8 位)的嵌入运算符……Scott Roy, Digant Desai, Kimish Patel2025 年 1 月 6 日
PyTorch 成为 AI 和 ML 的主导开源框架:2024 年年度回顾 社区 PyTorch 成为 AI 和 ML 领域主流开源框架:2024 年度回顾 过去一年对于 PyTorch 来说是里程碑式的一年,从主要版本发布到旗舰产品……Eli Uriegas, Meta 和 Jennifer Bly, PyTorch 基金会2024 年 12 月 23 日
使用 AWS Graviton 处理器上的 torch.compile 提高 RAG 性能 博客 使用 AWS Graviton 处理器上的 torch.compile 提高 RAG 性能 大型语言模型 (LLM) 在大量数据上进行训练,并使用数十亿个……Sunita Nadampalli (AWS), Ankith Gunapal (Meta), Hamid Shojanazeri (Meta)2024 年 12 月 20 日
torchcodec:适用于 PyTorch 的简单高效视频解码库 博客 torchcodec:为 PyTorch 提供简单高效的视频解码 我们很高兴正式宣布 torchcodec,这是一个用于将视频解码为 PyTorch 张量的库。它……PyTorch 基金会2024 年 12 月 11 日
在 Triton 中加速 2D 动态块量化 Float8 GEMM 博客 在 Triton 中加速 2D 动态块量化 Float8 GEMM Float8 (FP8) 的 2D 块量化有望提高 Float8 的精度……Meta: Less Wright, IBM: Adnan Hoque2024 年 12 月 6 日
HadaCore: Tensor Core 加速 Hadamard 变换核 博客 HadaCore: Tensor Core 加速 Hadamard 变换核 IBM: Krish Agarwal, Rishi Astra, Adnan Hoque, Mudhakar Srivatsa, Raghu GantiMeta: Less Wright, Sijia Chen……IBM 和 Meta2024 年 12 月 2 日
使用 float8 和 FSDP2 超级训练 博客 使用 float8 和 FSDP2 超级训练 IBM: Tuan Hoang Trong, Alexei Karve, Yan Koyfman, Linsong Chu, Divya Kumari, Shweta Salaria, Robert……IBM 和 Meta2024 年 11 月 25 日
在 torchtune 中将 Llama3.1 8B 精炼为 1B 博客 在 torchtune 中将 Llama3.1 8B 精炼为 1B 在这篇博客中,我们展示了一个将 Llama 3.1 8B 模型精炼为……的案例研究。Linda Wang, Evan Smothers, Kartikay Khandelwal2024 年 11 月 18 日
深入探讨 CUTLASS 乒乓球 GEMM 核 博客 深入探讨 CUTLASS 乒乓球 GEMM 核 图 1. FP8 GEMM 吞吐量比较 CUTLASS 与 Triton 总结 在此文章中,我们提供……Less Wright, Adnan Hoque2024 年 11 月 1 日
使用 TorchServe + vLLM 部署 LLM 博客 使用 TorchServe + vLLM 部署 LLM vLLM 引擎是目前执行大型语言模型性能最佳的方式之一……Matthias Reso, Ankith Gunapal, Simon Mo, Li Ning, Hamid Shojanazeri2024 年 10 月 31 日
Triton 核编译阶段 博客 Triton 核编译阶段 Triton 开源编程语言和编译器提供了一种高级的、基于 Python 的方法来创建高效的……Sara Kokkila-Schumacher*, Brian Vaughan*, Raghu Ganti*, 和 Less Wright+ (*IBM 研究院, +Meta)2024 年 10 月 30 日