快捷方式

PYTORCH ProcessGroupNCCL 环境变量

有关环境变量的更多信息,请参阅 ProcessGroupNCCL 环境变量

变量

描述

TORCH_NCCL_HIGH_PRIORITY

控制是否为 NCCL 通信器使用高优先级流。

TORCH_NCCL_BLOCKING_WAIT

控制 wait() 是阻塞的还是非阻塞的。

TORCH_NCCL_DUMP_ON_TIMEOUT

控制是否在检测到看门狗超时或异常时转储调试信息。此变量必须与 TORCH_NCCL_TRACE_BUFFER_SIZE 设置为大于 0 的值一起设置。

TORCH_NCCL_DESYNC_DEBUG

控制是否启用 Desync Debug。这有助于找出导致集体不同步的罪魁祸首等级。

TORCH_NCCL_ENABLE_TIMING

如果设置为 1,则为所有 ProcessGroupNCCL 集体启用记录开始事件,并计算每个集体的准确集体时间。

TORCH_NCCL_ENABLE_MONITORING

如果设置为 1,则启用监视线程,该线程在 ProcessGroupNCCL 看门狗线程卡住并且在 TORCH_NCCL_HEARTBEAT_TIMEOUT_SEC 后未检测到心跳时中止进程。这可能是由于调用可能挂起的 CUDA/NCCL API 造成的。它有助于防止作业长时间卡住,从而占用集群资源。

TORCH_NCCL_HEARTBEAT_TIMEOUT_SEC

控制看门狗心跳超时时间,在此时间之后,监视线程将中止进程。

TORCH_NCCL_TRACE_BUFFER_SIZE

我们在飞行记录器环形缓冲区中存储的事件的最大数量。例如,一个事件可能是集体的开始或结束。设置为 0 可禁用跟踪缓冲区和调试信息转储。

TORCH_NCCL_WAIT_TIMEOUT_DUMP_MILSEC

控制在退出并抛出超时异常之前,我们将等待多长时间才能转储调试信息。

TORCH_NCCL_DEBUG_INFO_TEMP_FILE

将调试信息转储到的文件。

TORCH_NCCL_DEBUG_INFO_PIPE_FILE

手动触发调试转储的管道文件,向管道中写入任何内容都将触发转储。

TORCH_NCCL_NAN_CHECK

控制是否为输入启用 NAN 检查,如果检测到 NAN,则会抛出错误。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源