使用 PyTorch 大规模训练 MoE 模型 博客 使用 PyTorch 大规模训练 MoE 模型 在过去一年中,专家混合 (MoE) 模型的人气飙升,这得益于……Brian Chu, Mihir Patel, Less Wright, Vitaliy Chiley, Evan Racah, Wanchao Liang, Iris Zhang, Andrew Gu2024 年 6 月 23 日
使用半结构化 (2:4) 稀疏性加速神经网络训练 博客 使用半结构化 (2:4) 稀疏性加速神经网络训练 在过去一年中,我们已将对半结构化 (2:4) 稀疏性的支持添加到 PyTorch 中。只需……Jesse Cai, Daniel Haziza, Supriya Rao2024 年 6 月 20 日
使用 PyTorch 分布式异步检查点将模型检查点时间缩短 10 倍以上 博客 使用 PyTorch 分布式异步检查点将模型检查点时间缩短 10 倍以上 总结:借助 PyTorch distributed 新的异步检查点功能(在 IBM 的反馈下开发),我们展示了如何……Meta: Lucas Pasqualin, Less Wright, Iris Zhang (PyTorch), Chien-Chin Huang; IBM Research: Swaminathan Sundararaman, Saransh Gupta, Raghu Ganti2024 年 6 月 12 日
LLM 推理的 INT4 解码 GQA CUDA 优化 博客 LLM 推理的 INT4 解码 GQA CUDA 优化 高效的低精度 KV 缓存分组查询注意力解码简介 生成式 AI 已占据……Sarunya Pumma, Jongsoo Park, Jianyu Huang, Amy Yang, Jaewon Lee, Daniel Haziza, Grigory Sizov, Jeremy Reizenstein, Jeff Johnson, Ying Zhang2024 年 6 月 6 日
使用 PyTorch FSDP 和 Torch.compile 最大化训练吞吐量 博客 使用 PyTorch FSDP 和 Torch.compile 最大化训练吞吐量 最近,我们演示了如何使用 FSDP 和选择性激活检查点来实现 57% 的 MFU……IBM PyTorch 团队和 Meta PyTorch 团队2024 年 5 月 21 日
使用 PyTorch 和 Intel AI 实现可持续发展目标 博客 使用 PyTorch 和 Intel AI 实现可持续发展目标 此帖子由 Intel AI 与 PyTorch 基金会合作发布。2017 年,……PyTorch 基金会2024 年 5 月 15 日
使用块稀疏性加速 ViT 博客 使用块稀疏性加速 ViT TLDR:我们展示了在 float32 上最高可达 1.46 倍的加速,且精度下降 <2% 的有希望的结果……Meta 的 FAIR: Mostafa Elhoushi, Meta Reality Labs Research 的 Sensors and Systems: Syed Shakib Sarwar, Aaryan Kothapalli, Mia Kasperek, Barbara De Salvo, Meta 的 PyTorch: Christian Puhrsch, Jesse Cai, Joe Isaacson, Quantsight: Andrew James, Pearu Peterson, Nikita Vedeneev2024 年 5 月 14 日
介绍 depyf:轻松掌握 torch.compile 社区 介绍 depyf:轻松掌握 torch.compile 我们很高兴向 PyTorch 生态系统引入一个新项目 depyf,旨在帮助……You Kaichao2024 年 5 月 11 日
使用 Triton Kernels 加速 Llama3 FP8 推理 博客 使用 Triton Kernels 加速 Llama3 FP8 推理 1.0 总结 我们展示了一种优化的 Triton FP8 GEMM(通用矩阵乘法)内核 TK-GEMM,它……Adnan Hoque, Less Wright, Chih Chieh Yang2024 年 5 月 1 日
ExecuTorch Alpha:与我们的社区和合作伙伴将 LLM 和 AI 带到边缘 博客 ExecuTorch Alpha:与我们的社区和合作伙伴将 LLM 和 AI 带到边缘 我们很高兴地宣布发布 ExecuTorch alpha,专注于部署大型语言模型……PyTorch 基金会2024 年 4 月 30 日
PyTorch 2.3 发布博客 博客 PyTorch 2.3 发布博客 我们很高兴地宣布发布 PyTorch® 2.3(发布说明)!PyTorch 2.3 提供……PyTorch 基金会2024 年 4 月 24 日
使用局部感知内核设计加速 MoE 模型推理 博客 使用局部感知内核设计加速 MoE 模型推理 1.0 总结 我们展示了通过实现列主序调度来改进数据局部性,我们可以……Adnan Hoque, Less Wright, Antoni Virós Martin, Chih-Chieh Yang2024 年 4 月 4 日
使用 PyTorch FSDP 最大化训练吞吐量 博客 使用 PyTorch FSDP 最大化训练吞吐量 在此博客中,我们展示了 FSDP 在预训练示例(一个 7B……)中的可扩展性IBM PyTorch 团队和 Meta PyTorch 团队2024 年 3 月 13 日
通过 SimulAI 工具包探索科学机器学习管道 社区 通过 SimulAI 工具包探索科学机器学习管道 SciML,即科学机器学习的缩写,涵盖了将定量科学与机器学习融合在一起的工作。……Joao Lucas de Sousa Almeida2024 年 2 月 15 日
Colossal-LLaMA-2:使用 LLaMA 和 Colossal-AI 的低成本高质量领域特定 LLM 解决方案 社区 Colossal-LLaMA-2:使用 LLaMA 和 Colossal-AI 的低成本高质量领域特定 LLM 解决方案 LLaMA-1 和 LLaMA-2 之间最显著的区别在于融合了更高质量的语料库,……Yang You2024 年 1 月 29 日
使用 RoMa 轻松实现 3D 旋转和空间变换 社区 使用 RoMa 轻松实现 3D 旋转和空间变换 还在为四元数、旋转向量、右手定则和所有这些东西而烦恼吗?试试 RoMa:一个易于使用的……Romain Brégier2024 年 1 月 25 日
使用 PyTorch 加速生成式 AI IV:Seamless M4T,快速 博客 利用 PyTorch IV 加速生成式 AI:无缝 M4T,快速 此帖子是多系列博客的第四部分,重点介绍如何加速……Yejin Lee, Carole-Jean Wu, Christian Puhrsch, Joel Schlosser, Driss Guessous, Jeffrey Wan, Joe Isaacson, Can Balioglu, Juan Pino2024 年 1 月 23 日
使用 Intel Extension for PyTorch 通过量化技术加速 PyTorch 模型 博客 使用 Intel Extension for PyTorch 通过量化技术加速 PyTorch 模型 概述 PyTorch 是一个基于 Python 的深度学习模型开发框架。它是最流行的框架之一……英特尔2024 年 1 月 18 日