错误传播¶
在分布式 PyTorch 任务中,每个主机运行一个 TorchElastic 代理,以及多个工作进程(作为 TorchElastic 代理的子进程)。由于工作进程是用户提供的(您的 PyTorch 脚本/任务),TorchElastic 有一种方法可以将训练器上的错误通过代理传播到调度器,最终通知终端用户任务的状态并应用任何重试策略。
TorchElastic 将错误分为 3 类
类别 |
子类别 |
描述 |
---|---|---|
用户错误 |
输入错误 |
TorchElastic API 的无效输入(例如 min > max 节点) |
工作进程失败 |
工作子进程上的任何失败 |
|
平台错误 |
n/a |
代理引起的失败 |
基础设施错误 |
n/a |
超出代理和工作进程范围的失败(例如主机失败) |
除“工作进程失败”以外的所有错误,要么由代理进程规范地引发,要么隐式或显式地导致代理进程崩溃。因此,标准的语言(如 Python)提供的异常处理策略适用。
工作进程失败是特殊的,因为异常/失败源自与代理不同的进程,因此错误需要跨进程传播(例如,代理无法简单地 try-catch
捕获工作进程上引发的异常)。
TorchElastic 代理使用 torch.distributed.elastic.multiprocessing.start_processes()
启动工作进程,其中内置了基于文件的简单跨进程错误传播机制。
任何用 record()
装饰的函数或二进制入口点,会将未捕获的异常(包含跟踪信息)写入由环境变量 TORCHELASTIC_ERROR_FILE
指定的文件中。父进程(例如代理)在它启动的每个子进程上设置此环境变量,然后聚合所有子进程的错误文件,并传播时间戳最小的错误(即第一个错误)。
方法和类¶
- torch.distributed.elastic.multiprocessing.errors.record(fn, error_handler=None)[源代码][源代码]¶
语法糖,用于使用提供的
error_handler
记录装饰函数中发生的错误/异常。使用此装饰器等同于
error_handler = get_error_handler() error_handler.initialize() try: foobar() except ChildFailedError as e: _, failure = e.get_first_failure() error_handler.dump_error_file(failure.error_file, failure.exitcode) raise except Exception as e: error_handler.record_exception(e) raise
重要提示
在每个进程的顶层方法中使用此装饰器一次,通常这是主方法。
示例
@record def main(): pass if __name__ == "__main__": main()
- 返回类型
Callable[[…], T]
- class torch.distributed.elastic.multiprocessing.errors.ChildFailedError(name, failures)[源代码][源代码]¶
一种特殊的异常类型,可以从用
@record
装饰器标注的函数中引发,使子进程的(根异常)按原样向上层堆栈传播(例如,不被包装在父进程的跟踪信息中)。当父进程是简单的守护进程,而子进程(工作进程)实际在执行有意义的计算时,这非常有用。在这种情况下,错误通常发生在子进程上,因为父进程没有执行任何非平凡的操作,并且子进程的错误应该传播到调度器以便进行准确的根因诊断。
注意
传播依赖于错误文件而非异常处理,以支持函数和二进制启动。
示例
# process tree on a host (container) 0: scheduler-init-process: |- 1: torchelastic_agent: |- 2: trainer_0 (ok) |- 3: trainer_1 (fail) -> error.json |- ... |- n+2: trainer_n (ok) |- n+3: other processes |- ...
在上面的示例中,训练器 1 的失败(写入 error.json 文件)是根本原因,应该报告给调度器的初始化进程。torchelastic 代理在检测到训练器 1 的失败时会引发一个
ChildFailedError("trainer", {1: "trainer_1/error.json"})
,这将把训练器 1 错误文件的内容传播到调度器的初始化进程。
- class torch.distributed.elastic.multiprocessing.errors.ErrorHandler[源代码][源代码]¶
将提供的异常对象以及一些关于错误的元数据以结构化的 JSON 格式写入由环境变量
TORCHELASTIC_ERROR_FILE
指定的错误文件。如果未设置此环境变量,则仅记录本应写入错误文件的内容。可以对此处理程序进行子类化以自定义错误的处理方式。子类应该重写
initialize()
和record_exception()
。
- class torch.distributed.elastic.multiprocessing.errors.ProcessFailure(local_rank, pid, exitcode, error_file)[源代码][源代码]¶
表示失败的进程结果。当工作进程失败时,它可能会将失败的根本原因记录到文件中。
尝试从提供的
error_file
读取失败时间戳;如果error_file
不存在,则时间戳为当前时间戳(自 epoch 以来的秒数)。message
字段是失败的简明解释。如果错误文件存在,则从错误文件中获取消息。否则,将根据失败签名生成一个。注意
假定
error_file
由torch.distributed.elastic.multiprocessing.errors.error_handler.ErrorHandler
写入。否则行为是未定义的。