欢迎使用 TorchSnapshot 文档!¶ TorchSnapshot 是一个 PyTorch 库,用于为大规模 PyTorch 分布式训练工作负载添加容错功能。 安装说明 TorchSnapshot API¶ 内容 入门 安装 描述应用程序状态 创建快照 从快照恢复 分布式快照 快照内容访问 异步创建快照 可重复性 弹性(实验性) API 参考 示例¶ 简单示例 将 TorchSnapshot 与 DistributedDataParallel (DDP) 一起使用 将 TorchSnapshot 与 TorchRec 一起使用