博客 | 6 of 33 | PyTorch

2024 年 9 月 18 日

PyTorch 多设备集成的挑战与努力：兼容性、可移植性和集成效率

引言

2024 年 9 月 12 日

Arm 加入 PyTorch 基金会成为创始会员

PyTorch 基金会是深度学习社区在开源 PyTorch 框架和生态系统上协作的中立平台，今日宣布 Arm 已加入成为创始会员。

2024 年 9 月 04 日

在这篇博客中，我们讨论了用于使用流行 LLM 模型（例如 Meta 的 Llama3-8B 和 IBM 的 Granite-8B Code）实现 FP16 推理的方法，其中 100% 的计算使用 OpenAI 的 Triton Language 执行。对于使用我们基于 Triton 内核的模型进行单 token 生成时间，在 Nvidia H100 GPU 上，我们可以达到相对于以 CUDA 内核为主导的工作流程 0.76-0.78 倍的性能，无论是 Llama 还是 Granite；在 Nvidia A100 GPU 上，性能为 0.62-0.82 倍。为什么要探索使用 100%...

2024 年 8 月 29 日

加速您的 AI：PyTorch 2.4 现已支持 Intel GPU，加速工作负载

我们有一个激动人心的消息！PyTorch 2.4 现已支持 Intel® 数据中心 GPU Max 系列和 SYCL 软件栈，使您的 AI 工作流程（无论是训练还是推理）更易加速。此次更新允许您以最小的编码工作量获得一致的编程体验，并扩展了 PyTorch 的设备和运行时能力，包括设备、流、事件、生成器、分配器和守卫，以无缝支持流式设备。此增强功能简化了部署 PyTorch ...

2024 年 8 月 20 日

在 Opacus 中启用快速梯度裁剪和幽灵裁剪

引言和背景

2024 年 8 月 07 日

FlexAttention：PyTorch 的灵活性与 FlashAttention 的性能

2024 年 7 月 30 日

介绍 torchchat：加速笔记本电脑、台式机和移动设备上的本地 LLM 推理

今天，我们发布了 torchchat，这是一个展示如何在笔记本电脑、台式机和移动设备上无缝且高性能地运行 Llama 3、3.1 及其他大型语言模型的库。

PyTorch 原生架构优化：torchao

PyTorch 多设备集成的挑战与努力：兼容性、可移植性和集成效率

Arm 加入 PyTorch 基金会成为创始会员

无需 CUDA 的 LLM 推理

加速您的 AI：PyTorch 2.4 现已支持 Intel GPU，加速工作负载

在 Opacus 中启用快速梯度裁剪和幽灵裁剪

FlexAttention：PyTorch 的灵活性与 FlashAttention 的性能

介绍 torchchat：加速笔记本电脑、台式机和移动设备上的本地 LLM 推理

安装 PyTorch

通过以下方式快速开始
云合作伙伴

文档

教程

资源

安装 PyTorch

通过以下方式快速开始云合作伙伴

文档

教程

资源

通过以下方式快速开始
云合作伙伴