在 PyTorch 和 ExecuTorch 中推进低比特运算符:动态内核选择、KleidiAI 和量化绑定嵌入
TorchAO 为 Arm CPU 带来了高性能的低比特线性和嵌入运算符。在此次更新中,我们……
在 Opacus 中启用完全分片数据并行(FSDP2)
介绍与背景 Opacus 在支持大规模模型的私有训练方面取得了重大进展……
Sai Aparna Aketi, Huanyu Zhang2025年7月7日
FlagGems 加入 PyTorch 生态系统:由 Triton 驱动的通用 AI 加速算子库
在跨多种 AI 硬件加速大型语言模型的竞赛中,FlagGems 提供了……
FlagGems 团队2025年6月25日
介绍 Flux Fast:让 Flux 在 H100s 上飞速运行
在我们早前的文章 diffusion-fast 中,我们展示了 Stable Diffusion XL (SDXL) 流水线如何能……
容错 Llama:在 Crusoe L40S 上每约 15 秒进行 2000 次综合故障训练且无检查点
合作者:Less Wright, Howard Huang, Chien-Chin Huang, Crusoe: Martin Cala, Ethan Petersen 摘要:我们使用了……
Tristan Rice, Howard Huang2025年6月20日
DeepNVMe:深度学习应用中经济实惠的 I/O 扩展
简介 我们在 2024 年夏天推出了 DeepNVMe,作为一套优化方案,用于解决 I/O 瓶颈问题……
Joe Mayer, Logan Adams, Olatunji Ruwase2025年6月17日