2024 年 5 月 14 日

使用块稀疏性加速 ViT

TLDR:我们通过在 MLP 模块的权重上应用块稀疏性,在 A100 GPU 上的 float32 Vision Transformers 上实现了高达 1.46 倍的加速,准确率下降不到 2%。这种方法有望应用于其他类型的 transformer,包括大型语言模型。我们用于重现结果的实现和基准测试可在 https://github.com/pytorch-labs/superblock 找到。

阅读更多

2024 年 5 月 2 日

投机采样漫游指南

投机采样(Speculative decoding)是一种用于推理的优化技术,它在生成当前 token 的同时对未来 token 进行有根据的猜测,所有这些都在一次前向传播中完成。它包含一种验证机制,以确保这些推测 token 的正确性,从而保证投机采样的总体输出与普通采样(vanilla decoding)相同。优化大型语言模型 (LLM) 的推理成本可以说是最关键的因素之一...

阅读更多

2024 年 5 月 2 日

宣布 2024 年 6 月 PyTorch 文档马拉松活动

我们很高兴宣布即将于 6 月举行的 PyTorch 文档马拉松活动!文档马拉松类似于黑客马拉松,是一项致力于在我们社区宝贵帮助下提升 PyTorch 文档质量的活动。文档是任何技术的重要组成部分。通过完善文档,我们可以简化新用户入门 PyTorch 的流程,指导他们有效利用其功能,并最终加速机器学习从研究到生产的过渡...

阅读更多

2024 年 4 月 30 日

ExecuTorch Alpha:与我们的社区和合作伙伴一起将 LLM 和 AI 带到边缘

我们很高兴宣布 ExecuTorch alpha 的发布,其重点是将大型语言模型 (LLM) 和大型机器学习模型部署到边缘、稳定 API 接口并改进我们的安装流程。自与 Arm、Apple 和 Qualcomm Technologies, Inc. 的合作伙伴合作发布 0.1(预览版)以来,这几个月令人兴奋。

阅读更多

2024 年 4 月 24 日

PyTorch 2.3 版本发布博客

我们很高兴宣布 PyTorch® 2.3 版本发布 (版本说明)!PyTorch 2.3 支持在 torch.compile 中使用用户定义的 Triton 核函数,允许用户将其 Triton 核函数从 Eager 模式迁移,而不会出现性能下降或图中断。Tensor Parallelism 改进了使用 PyTorch 原生函数训练大型语言模型(Large Language Models)的体验,这已在 1000 亿参数模型的训练运行中得到验证。此外,半结构化稀疏实现...

阅读更多

2024 年 4 月 16 日

torchtune:使用 PyTorch 轻松微调 LLM

我们很高兴宣布 torchtune 的 alpha 版本发布,这是一个 PyTorch 原生库,用于轻松微调大型语言模型。

阅读更多