2024 年 11 月 25 日
使用 float8 和 FSDP2 加速训练
在这篇博客中,我们将展示如何在使用 FSDP1 bf16 训练的基础上,通过使用 float8 和 FSDP2 在训练中实现高达 50% 的吞吐量提升,同时保持损失和评估基准持平
2024 年 11 月 21 日
Rebellions 加入 PyTorch 基金会成为普通会员
PyTorch 基金会作为深度学习社区协作开发开源 PyTorch 框架和生态系统的中立平台,今天宣布 Rebellions 已作为普通会员加入。
2024 年 11 月 18 日
在 torchtune 中将 Llama3.1 8B 精简为 1B
在这篇博客中,我们展示了一个案例研究,介绍如何使用 torchtune 的知识蒸馏方法将 Llama 3.1 8B 模型精简为 Llama 3.2 1B。我们演示了如何在训练后使用知识蒸馏 (KD) 来提高指令遵循任务的性能,并展示了用户如何利用该方法。
2024 年 11 月 01 日
深入探讨 CUTLASS Ping-Pong GEMM 核
在这篇文章中,我们概述了 CUTLASS Ping-Pong GEMM 核,并提供了相关的 FP8 推理核基准测试结果。
2024 年 10 月 31 日
使用 TorchServe + vLLM 部署大型语言模型
vLLM 引擎是目前执行大型语言模型 (LLM) 的顶级方法之一。它提供了 vllm serve 命令,可轻松在单台机器上部署模型。虽然这很方便,但在生产环境中大规模服务这些 LLM 需要一些高级功能。
2024 年 10 月 30 日
Triton 核编译阶段
Triton 开源编程语言和编译器提供了一种高级的、基于 Python 的方法来创建高效的 GPU 代码。在这篇博客中,我们重点介绍了 Triton 程序如何编译及其中间表示形式的底层细节。有关 Triton 的介绍,请参阅这篇博客。
2024 年 10 月 28 日
在移动设备上释放 AI 的力量:使用 ExecuTorch 和 KleidiAI 对 Llama 3.2 量化模型进行 LLM 推理
在最近的 PyTorch 大会上,Arm 强调了其技术从云端到边缘的广泛影响,并强调其致力于将先进的 AI 计算能力无缝地提供给全球数百万开发者。