2023年9月5日
自动化 trace 收集与分析
在这篇博文中,我们分享了如何在不进行任何用户端代码插桩的情况下,为训练工作负载启用 PyTorch Profiler trace 的收集和分析。我们利用 Dynolog——一个用于 CPU 和 GPU 遥测的开源守护程序来收集 PyTorch Profiler trace,并使用 Holistic Trace Analysis——一个用于分析 PyTorch Profiler trace 的开源库来分析收集到的 trace。这套工具链使得 Meta 的工程师能够加速其性能优化流程。T...
2023年8月31日
PyTorch/XLA SPMD:通过自动并行化扩展模型训练和服务
今天,我们很高兴宣布推出 PyTorch/XLA SPMD:将 GSPMD 集成到 PyTorch 中,并提供易于使用的 API。寻求卓越性能和规模的 PyTorch 开发者可以训练和服务最大的神经网络,同时最大化利用 AI 加速器,例如 Google Cloud TPUs。
2023年8月24日
使用 PyTorch/XLA FSDP 在 TPUs 上进行 Hugging Face Transformers 的大规模训练
人工智能正通过理解和生成语言、回答问题以及提供准确推荐等先进能力,改变着许多行业。这些能力由规模和复杂性不断增长的 AI 模型驱动,而这些模型需要巨大的计算能力来进行训练。