2023 年 11 月 30 日
使用 PyTorch 加速生成式 AI II:GPT,快速
本文是系列博客的第二部分,重点介绍如何使用纯粹的原生 PyTorch 加速生成式 AI 模型。我们很高兴分享一系列新发布的 PyTorch 性能特性以及实际示例,看看原生 PyTorch 的性能潜力有多大。在第一部分中,我们展示了如何仅使用纯粹的原生 PyTorch 将 Segment Anything 加速 8 倍以上。本文我们将重点关注 LLM 优化。
2023 年 11 月 29 日
PyTorch 2.1 包含面向 AI 开发人员的新性能特性
我们很高兴看到 PyTorch 2.1 发布。在此博客中,我们将讨论英特尔对 PyTorch 2.1 做出重大贡献的五项特性。
2023 年 11 月 16 日
🎉 PyTorch 文档马拉松 2023 年下半年总结 🎉
我们激动地宣布 2023 年秋季 PyTorch 文档马拉松圆满成功!本次活动取得了巨大成功,我们衷心感谢所有促成其成功的参与者。我们开源贡献者的奉献、专业知识和不懈努力再次帮助我们改进了 PyTorch 文档。
2023 年 11 月 16 日
使用 PyTorch 加速生成式 AI:Segment Anything,快速
本文是系列博客的第一部分,重点介绍如何使用纯粹的原生 PyTorch 加速生成式 AI 模型。我们很高兴分享一系列新发布的 PyTorch 性能特性,并结合实际示例,展示如何组合这些特性以最大限度地发挥原生 PyTorch 的性能潜力。
2023 年 11 月 07 日
使用 PyTorch compile 加速 Llama 2 推理
在这篇博客中,我们讨论如何使用 PyTorch 原生优化,如原生快速核函数 (native fast kernels)、torch compile 的编译转换以及分布式推理的张量并行,来改进 Llama 2 系列模型的推理延迟。我们的方法在 70B LLaMa 模型上实现了单用户请求 29 毫秒/token 的延迟(在 8 个 A100 GPU 上测得)。我们很高兴与社区分享我们的发现,并在此提供我们的代码。
2023 年 11 月 06 日
使用 PyTorch/XLA 在云 TPU 上进行高性能 Llama 2 训练和推理
在 AI 创新以前所未有的速度加速发展的背景下,Meta 开源的大型语言模型 (LLMs) Llama 系列脱颖而出,成为一项显著突破。Llama 标志着 LLMs 向前迈出了重要一步,展示了预训练架构在广泛应用中的强大能力。Llama 2 进一步拓展了规模和能力边界,激发了语言理解、生成等领域的进步。