博客 | 10/33 | PyTorch - PyTorch 深度学习库

2024 年 3 月 13 日

使用 PyTorch FSDP 最大化训练吞吐量

在这篇博客中，我们通过一个预训练示例（一个训练了 2 万亿 token 的 7B 模型）演示了 FSDP 的可扩展性，并分享了我们用于在 128 个 A100 GPU 上实现 3,700 token/秒/GPU 或每天 400 亿 token 快速训练速度的各种技术。这相当于模型 FLOPS 利用率 (MFU) 和硬件 FLOPS 利用率 (HFU) 达到 57%。此外，我们观察到 FSDP 在扩展到 512 个 GPU 时表现出接近线性的缩放，这意味着使用此方法在 512 个 GPU 上训练一个 7B 模型达到 2 万亿 token 将会...

2024 年 2 月 6 日

PyTorch 2 论文和教程 @ ASPLOS 2024

PyTorch 团队很高兴分享，我们关于 PyTorch 2 的论文已被 ACM 国际程序设计语言与操作系统体系结构支持大会 (ASPLOS) 接受，该会议定于 2024 年 4 月 27 日至 5 月 1 日在美国加州圣迭戈举行。

2024 年 2 月 1 日

PyTorch 文档中的新增内容

向 PyTorch 社区致敬！这是 PyTorch 文档的快速更新。

2024 年 1 月 30 日

PyTorch 2.2：FlashAttention-v2 集成，AOTInductor

我们很高兴宣布 PyTorch® 2.2 (版本说明) 发布！PyTorch 2.2 通过 FlashAttention-v2 集成，将 scaled_dot_product_attention 的性能提高了约 2 倍，并提供了 AOTInductor，这是一种专为非 Python 服务器端部署构建的全新提前编译和部署工具。

2024 年 1 月 30 日

PyTorch 2.2 中的新库更新

摘要

2024 年 1 月 23 日

使用 PyTorch 加速生成式 AI IV：Seamless M4T，快速

本文是系列博客的第四部分，重点介绍如何使用纯粹的原生 PyTorch 加速生成式 AI 模型。要直接查看代码，请访问我们的 GitHub (seamless_communication, fairseq2)。我们很高兴分享 PyTorch 最新发布的广泛性能特性以及实际示例，以了解我们可以将 PyTorch 的原生性能提升到什么程度。在第一部分中，我们展示了如何仅使用纯粹的原生 PyTorch 将 Segment Anything 加速 8 倍以上。在第二部分中，我们展示了如何...

2024 年 1 月 18 日

使用 PyTorch Intel 扩展的量化技术加速 PyTorch 模型

概述

利用局部感知内核设计加速 MoE 模型推理

使用 PyTorch FSDP 最大化训练吞吐量

PyTorch 2 论文和教程 @ ASPLOS 2024

PyTorch 文档中的新增内容

PyTorch 2.2：FlashAttention-v2 集成，AOTInductor

PyTorch 2.2 中的新库更新

使用 PyTorch 加速生成式 AI IV：Seamless M4T，快速

使用 PyTorch Intel 扩展的量化技术加速 PyTorch 模型

安装 PyTorch

快速入门，使用
云合作伙伴

文档

教程

资源

安装 PyTorch

快速入门，使用云合作伙伴

文档

教程

资源

快速入门，使用
云合作伙伴