在 PyTorch 中启用高级 GPU 功能 – Warp Specialization 博客 在 PyTorch 中启用高级 GPU 功能 – Warp 专门化 Meta:洪涛宇、任曼曼、Bert Maher、Shane NayNVIDIA:朱古斯塔夫、姜淑豪……Meta 和 NVIDIA2025 年 2 月 5 日
PyTorch 技术咨询委员会 (TAC) 2025 年的优先事项 博客 PyTorch 技术咨询委员会 (TAC) 2025 年优先事项 2024 年是 PyTorch 取得令人难以置信的增长的一年。随着 2025 年的继续,……Luca Antiga,PyTorch TAC 主席2025 年 1 月 28 日
将 PyTorch 社区聚集在一起 博客社区 将 PyTorch 社区聚集在一起 当我们迈入新的一年,是时候回顾一下……Eli Uriegas, Meta 和 Jennifer Bly, PyTorch 基金会2025 年 1 月 22 日
使用 GemLite、TorchAO 和 SGLang 加速 LLM 推理 博客 使用 GemLite、TorchAO 和 SGLang 加速 LLM 推理 大型语言模型 (LLM) 通常是资源密集型的,需要大量的内存、计算和……PyTorch、Mobius Labs 和 SGLang 团队2025 年 1 月 21 日
通过 Arm 和 GitHub 协作简化 PyTorch 的 MLOps 工作流 社区 通过 Arm 和 GitHub 协作简化 PyTorch 的 MLOps 工作流程 PyTorch 是最广泛使用和最强大的深度学习框架之一,适用于……Eric Sondhi,Arm2025 年 1 月 15 日
在英特尔® 至强® 处理器上加速 PyTorch 2.5 的 GenAI 博客 在英特尔® 至强® 处理器上为 PyTorch 2.5 提供 GenAI 加速 此博客是专注于加速生成式 AI 模型的系列文章中的第五篇,其中……英特尔 PyTorch 团队2025 年 1 月 14 日
通过 PyTorch 多设备支持将 Ascend 后端与 Torchtune 集成 博客 通过 PyTorch 多设备支持将昇腾后端与 Torchtune 集成 在此博客中,我们将简要介绍 torchtune、Ascend 后端,并演示 torchtune 如何……华为 PyTorch 团队:李晨光(华为),曹梦青(华为)2025 年 1 月 9 日
适用于 PyTorch 的高性能低位运算符 博客 适用于 PyTorch 的高性能低比特位算子 我们很高兴地宣布添加了具有低位权重(1-8 位)的嵌入运算符……Scott Roy、Digant Desai、Kimish Patel2025 年 1 月 6 日
PyTorch 成为 AI 和 ML 领域主导开源框架:2024 年回顾 博客社区 PyTorch 成为 AI 和 ML 领域主流开源框架:2024 年度回顾 过去的一年是 PyTorch 具有里程碑意义的一年,从重大发布到旗舰……Eli Uriegas,Meta 和 Jennifer Bly,PyTorch 基金会2024 年 12 月 23 日
通过 torch.compile 在 AWS Graviton 处理器上改进 RAG 性能 博客 使用 AWS Graviton 处理器上的 torch.compile 提高 RAG 性能 大型语言模型 (LLM) 在海量数据上进行训练,并使用数十亿个……Sunita Nadampalli(AWS)、Ankith Gunapal(Meta)、Hamid Shojanazeri(Meta)2024 年 12 月 20 日
docTR 加入 PyTorch 生态系统:从像素到数据,使用 PyTorch 和 docTR 构建识别流水线 博客生态系统 docTR 加入 PyTorch 生态系统:从像素到数据,使用 PyTorch 和 docTR 构建识别管道 我们很高兴地宣布 docTR 项目已集成到 PyTorch 生态系统中!……Olivier Dulcy 和 Sebastian Olivera,Mindee2024 年 12 月 18 日
torchcodec:PyTorch 的简单高效视频解码 博客 torchcodec:为 PyTorch 提供简单高效的视频解码 我们很高兴正式宣布 torchcodec,一个用于将视频解码为 PyTorch 张量的库。它……PyTorch 基金会2024 年 12 月 11 日
在 Triton 中加速 2D 动态块量化 Float8 GEMM 博客 在 Triton 中加速 2D 动态块量化 Float8 GEMM Float8 (FP8) 的 2D 块量化有望提高 Float8 的精度……Meta:Less Wright,IBM:Adnan Hoque2024 年 12 月 6 日
HadaCore:张量核加速的 Hadamard 变换核 博客 HadaCore: Tensor Core 加速 Hadamard 变换核 IBM:Krish Agarwal、Rishi Astra、Adnan Hoque、Mudhakar Srivatsa、Raghu GantiMeta:Less Wright、Sijia Chen……IBM 和 Meta2024 年 12 月 2 日
使用 float8 和 FSDP2 加速训练 博客 使用 float8 和 FSDP2 超级训练 IBM:Tuan Hoang Trong、Alexei Karve、Yan Koyfman、Linsong Chu、Divya Kumari、Shweta Salaria、Robert……IBM 和 Meta2024 年 11 月 25 日
在 torchtune 中将 Llama3.1 8B 精炼为 1B 博客 在 torchtune 中将 Llama3.1 8B 精炼为 1B 在此博客中,我们将介绍一个案例研究,内容是将 Llama 3.1 8B 模型精炼为 1B 模型……Linda Wang、Evan Smothers、Kartikay Khandelwal2024 年 11 月 18 日
CUTLASS 乒乓 GEMM 核的深入分析 博客 深入探讨 CUTLASS 乒乓球 GEMM 核 图 1. FP8 GEMM 吞吐量比较 CUTLASS vs Triton 总结 在本文中,我们提供……Less Wright、Adnan Hoque2024 年 11 月 1 日
使用 TorchServe + vLLM 部署 LLM 博客 使用 TorchServe + vLLM 部署 LLM vLLM 引擎目前是执行大型语言模型的最佳方式之一……Matthias Reso、Ankith Gunapal、Simon Mo、Li Ning、Hamid Shojanazeri2024 年 10 月 31 日
Triton 核编译阶段 博客 Triton 核编译阶段 Triton 开源编程语言和编译器提供了一种高级的、基于 Python 的方法来创建高效的……Sara Kokkila-Schumacher*、Brian Vaughan*、Raghu Ganti* 和 Less Wright+(*IBM Research,+Meta)2024 年 10 月 30 日