gather_cpu_state_dict¶

torchtune.training.gather_cpu_state_dict(model: FSDPModule, is_rank_zero: bool, device: Optional[device] = None, adapter_weights_only: bool = False) → Dict[str, Any][source]¶

将分片的 state dict 转换为 CPU 上的完整 state dict，仅在 rank0 上返回非空结果以避免 CPU 内存峰值。当前我们可以使用分布式 state dict API 处理不包含 NF4Tensor 的模型。否则，我们需要手动收集所有 NF4 张量，直到 NF4Tensor 子类支持 all-gather。TODO：在分布式 state dict API 中添加对 NF4Tensor 的支持

参数：