2024 年 3 月 13 日

使用 PyTorch FSDP 最大化训练吞吐量

在这篇博客中,我们通过一个预训练示例(一个训练了 2 万亿 token 的 7B 模型)演示了 FSDP 的可扩展性,并分享了我们用于在 128 个 A100 GPU 上实现 3,700 token/秒/GPU 或每天 400 亿 token 快速训练速度的各种技术。这相当于模型 FLOPS 利用率 (MFU) 和硬件 FLOPS 利用率 (HFU) 达到 57%。此外,我们观察到 FSDP 在扩展到 512 个 GPU 时表现出接近线性的缩放,这意味着使用此方法在 512 个 GPU 上训练一个 7B 模型达到 2 万亿 token 将会...

阅读更多

2024 年 2 月 6 日

PyTorch 2 论文和教程 @ ASPLOS 2024

PyTorch 团队很高兴分享,我们关于 PyTorch 2 的论文已被 ACM 国际程序设计语言与操作系统体系结构支持大会 (ASPLOS) 接受,该会议定于 2024 年 4 月 27 日至 5 月 1 日在美国加州圣迭戈举行。

阅读更多

2024 年 2 月 1 日

PyTorch 文档中的新增内容

向 PyTorch 社区致敬!这是 PyTorch 文档的快速更新。

阅读更多

2024 年 1 月 30 日

PyTorch 2.2:FlashAttention-v2 集成,AOTInductor

我们很高兴宣布 PyTorch® 2.2 (版本说明) 发布!PyTorch 2.2 通过 FlashAttention-v2 集成,将 scaled_dot_product_attention 的性能提高了约 2 倍,并提供了 AOTInductor,这是一种专为非 Python 服务器端部署构建的全新提前编译和部署工具。

阅读更多

2024 年 1 月 30 日

PyTorch 2.2 中的新库更新

摘要

阅读更多

2024 年 1 月 23 日

使用 PyTorch 加速生成式 AI IV:Seamless M4T,快速

本文是系列博客的第四部分,重点介绍如何使用纯粹的原生 PyTorch 加速生成式 AI 模型。要直接查看代码,请访问我们的 GitHub (seamless_communication, fairseq2)。我们很高兴分享 PyTorch 最新发布的广泛性能特性以及实际示例,以了解我们可以将 PyTorch 的原生性能提升到什么程度。在第一部分中,我们展示了如何仅使用纯粹的原生 PyTorch 将 Segment Anything 加速 8 倍以上。在第二部分中,我们展示了如何...

阅读更多