2024 年 7 月 11 日

FlashAttention-3:快速准确的注意力,具有异步性和低精度

注意力作为无处不在的 Transformer 架构的核心层,是大型语言模型和长上下文应用的瓶颈。FlashAttention(和 FlashAttention-2)率先采用了一种方法,通过最大限度地减少内存读写来加速 GPU 上的注意力,现在大多数库都使用它来加速 Transformer 的训练和推理。这使得 LLM 上下文长度在过去两年中大幅度增加,从 2-4K(GPT-3、OPT)到 128K(GPT-4),甚至 1M(Llam...

阅读更多

2024 年 7 月 10 日

了解如何使用 ExecuTorch 和 Llama 模型开发 Android 应用

此博客由 Arm 的 PyTorch 团队提供。更多详细信息请见此处。

阅读更多

2024 年 7 月 03 日

宣布 NeurIPS 2024 黑客杯 AI 竞赛

PyTorch 团队与 Meta 黑客杯和微软研究院合作,很高兴宣布 NeurIPS 2024 黑客杯 AI 竞赛。这将是流行的 Meta 黑客杯编程竞赛的第一个 AI 竞赛,旨在评估生成式 AI 在执行自动代码生成任务方面的能力。我们的目标是测试 AI 在复杂编码挑战中的极限,并衡量 AI 系统与人类程序员之间的性能差距。我们将提供对所有... 的访问权限

阅读更多

2024 年 6 月 25 日

推动 AI 革命:PyTorch 纪录片

现已发布:官方 PyTorch 纪录片!这部电影揭示了 PyTorch 起源的真实故事,将它的存在归功于一群默默无闻的英雄,他们推动了技术创新。

阅读更多

2024 年 6 月 23 日

使用 PyTorch 大规模训练 MoE

在过去的一年里,混合专家 (MoE) 模型的流行度激增,这是由 DBRX、Mixtral、DeepSeek 等强大的开源模型推动的。在 Databricks,我们与 PyTorch 团队密切合作,扩展 MoE 模型的训练。在这篇博文中,我们将讨论如何使用 PyTorch 分布式和 MegaBlocks(PyTorch 中高效的开源 MoE 实现)扩展到超过 3000 个 GPU。

阅读更多