实现高达 41% 的预训练提速:在 B200 上使用 TorchTitan 为 DeepSeek-V3 启用 MXFP8 和 DeepEP

简要概述:在 PyTorch 和 Nebius 的共同努力下,我们启用了 DeepSeek-V3 混合专家模型 (MoE) 的训练……
PyTorch 2.10+TorchAO:在英特尔® 酷睿™ Ultra 第 3 代处理器上赋能 AIPC 场景

概述:我们很高兴为您介绍英特尔® 酷睿™ Ultra 第 3 代处理器的亮点……
英特尔 PyTorch 和客户端 AI 软件团队2026年3月20日
针对 MoE 的 MXFP8 训练:使用 TorchAO 和 TorchTitan,在 GB200 集群上实现 Llama4 Scout 比 BF16 快 1.3 倍的训练速度

简要概述:我们最近演示了 Llama4 Scout 的训练速度提升了 +30.2%,且收敛性与……相当
KernelAgent:通过多智能体编排进行硬件引导的 GPU 内核优化

总结:最近,PyTorch 团队发布了 KernelAgent,这是一个开源的智能体系统,在……方面实现了 100% 的正确性
FlexAttention + FlashAttention-4:快速且灵活

简要概述:在 Hopper 和 Blackwell GPU 上,FlexAttention 现在拥有 FlashAttention-4 后端。我们增加了对……的支持
使用 ExecuTorch 和 Arm 将 PyTorch 模型部署到微边缘

人工智能的世界正在超越云端,触及到适合……的设备
Dominica Abena Oforiwaa Amanfo2026年3月5日
Pyrefly 现在支持 PyTorch 类型检查

我们很高兴地分享 PyTorch 现在利用 Pyrefly 来支持我们……的类型检查
Meta PyTorch 和 Pyrefly 团队2026年2月12日
利用内核融合加速 Mamba2

总结:在这篇文章中,我们讨论了如何优化 Mamba-2 状态空间对偶 (SSD) 模块……
Rishi Astra, Tri Dao, Adnan Hoque2026年2月6日











