快捷键

多进程

启动和管理 n 个工作进程子进程副本的库,这些副本由函数或二进制文件指定。

对于函数,它使用 torch.multiprocessing(因此使用 python multiprocessing)来生成/派生工作进程。对于二进制文件,它使用 python subprocessing.Popen 来创建工作进程。

用法 1:将两个训练器作为函数启动

from torch.distributed.elastic.multiprocessing import Std, start_processes

def trainer(a, b, c):
    pass # train


# runs two trainers
# LOCAL_RANK=0 trainer(1,2,3)
# LOCAL_RANK=1 trainer(4,5,6)
ctx = start_processes(
        name="trainer",
        entrypoint=trainer,
        args={0: (1,2,3), 1: (4,5,6)},
        envs={0: {"LOCAL_RANK": 0}, 1: {"LOCAL_RANK": 1}},
        log_dir="/tmp/foobar",
        redirects=Std.ALL, # write all worker stdout/stderr to a log file
        tee={0: Std.ERR}, # tee only local rank 0's stderr to console
      )

# waits for all copies of trainer to finish
ctx.wait()

用法 2:将 2 个回声工作器作为二进制文件启动

# same as invoking
# echo hello
# echo world > stdout.log
ctx = start_processes(
        name="echo"
        entrypoint="echo",
        log_dir="/tmp/foobar",
        args={0: "hello", 1: "world"},
        redirects={1: Std.OUT},
       )

就像 torch.multiprocessing 一样,函数 start_processes() 的返回值是一个进程上下文 (api.PContext)。如果启动了一个函数,则返回 api.MultiprocessContext,如果启动了一个二进制文件,则返回 api.SubprocessContext。两者都是父类 api.PContext 类的特定实现。

启动多个工作进程

torch.distributed.elastic.multiprocessing.start_processes(name, entrypoint, args, envs, logs_specs, log_line_prefixes=None, start_method='spawn')[source][source]

使用提供的选项启动 nentrypoint 进程副本。

entrypoint 可以是 Callable(函数)或 str(二进制文件)。副本数量由 argsenvs 参数的条目数决定,这两个参数需要具有相同的键集。

argsenv 参数是要传递给入口点的参数和环境变量,按副本索引(本地秩)映射。必须考虑所有本地秩。也就是说,键集应为 {0,1,...,(nprocs-1)}

注意

entrypoint 是二进制文件 (str) 时,args 只能是字符串。如果给出任何其他类型,则会将其强制转换为字符串表示形式(例如 str(arg1))。此外,只有当主函数使用 torch.distributed.elastic.multiprocessing.errors.record 注释时,二进制文件故障才会写入 error.json 错误文件。对于函数启动,默认情况下会这样做,无需手动使用 @record 注释。

redirectstee 是位掩码,用于指定要重定向到 log_dir 中的日志文件的 std 流。有效掩码值在 Std 中定义。要仅重定向/复制某些本地秩,请将 redirects 作为映射传递,键为本地秩,以指定重定向行为。任何缺失的本地秩都将默认为 Std.NONE

tee 的作用类似于 unix “tee” 命令,它会重定向 + 打印到控制台。要避免工作进程 stdout/stderr 打印到控制台,请使用 redirects 参数。

对于每个进程,log_dir 将包含

  1. {local_rank}/error.json:如果进程失败,则包含错误信息的文件

  2. {local_rank}/stdout.json:如果 redirect & STDOUT == STDOUT

  3. {local_rank}/stderr.json:如果 redirect & STDERR == STDERR

注意

预计 log_dir 存在、为空且是一个目录。

示例

log_dir = "/tmp/test"

# ok; two copies of foo: foo("bar0"), foo("bar1")
start_processes(
   name="trainer",
   entrypoint=foo,
   args:{0:("bar0",), 1:("bar1",),
   envs:{0:{}, 1:{}},
   log_dir=log_dir
)

# invalid; envs missing for local rank 1
start_processes(
   name="trainer",
   entrypoint=foo,
   args:{0:("bar0",), 1:("bar1",),
   envs:{0:{}},
   log_dir=log_dir
)

# ok; two copies of /usr/bin/touch: touch file1, touch file2
start_processes(
   name="trainer",
   entrypoint="/usr/bin/touch",
   args:{0:("file1",), 1:("file2",),
   envs:{0:{}, 1:{}},
   log_dir=log_dir
 )

# caution; arguments casted to string, runs:
# echo "1" "2" "3" and echo "[1, 2, 3]"
start_processes(
   name="trainer",
   entrypoint="/usr/bin/echo",
   args:{0:(1,2,3), 1:([1,2,3],),
   envs:{0:{}, 1:{}},
   log_dir=log_dir
 )
参数
  • name (str) – 人类可读的短名称,描述进程是什么(用作复制 stdout/stderr 输出时的标题)

  • entrypoint (Union[Callable, str]) – Callable(函数)或 cmd(二进制文件)

  • args (Dict[int, Tuple]) – 每个副本的参数

  • envs (Dict[int, Dict[str, str]]) – 每个副本的环境变量

  • log_dir – 用于写入日志文件的目录

  • start_method (str) – 多进程启动方法(spawn、fork、forkserver),二进制文件忽略此参数

  • redirects – 要重定向到日志文件的 std 流

  • tee – 要重定向 + 打印到控制台的 std 流

  • local_ranks_filter – 要打印到控制台的秩的日志

返回类型

PContext

进程上下文

class torch.distributed.elastic.multiprocessing.api.PContext(name, entrypoint, args, envs, logs_specs, log_line_prefixes=None)[source][source]

基类,用于标准化通过不同机制启动的一组进程的操作。

名称 PContext 是有意为之,以消除与 torch.multiprocessing.ProcessContext 的歧义。

警告

stdouts 和 stderrs 应始终是 tee_stdouts 和 tee_stderrs 的超集(分别是),这是因为 tee 实现为重定向 + tail -f <stdout/stderr.log>

class torch.distributed.elastic.multiprocessing.api.MultiprocessContext(name, entrypoint, args, envs, start_method, logs_specs, log_line_prefixes=None)[source][source]

PContext,持有作为函数调用的工作进程。

class torch.distributed.elastic.multiprocessing.api.SubprocessContext(name, entrypoint, args, envs, logs_specs, log_line_prefixes=None)[source][source]

PContext,持有作为二进制文件调用的工作进程。

class torch.distributed.elastic.multiprocessing.api.RunProcsResult(return_values=<factory>, failures=<factory>, stdouts=<factory>, stderrs=<factory>)[source][source]

使用 start_processes() 启动的进程的已完成运行结果。由 PContext 返回。

请注意以下事项

  1. 所有字段都按本地秩映射

  2. return_values - 仅为函数填充(而非二进制文件)。

  3. stdouts - stdout.log 的路径(如果未重定向,则为空字符串)

  4. stderrs - stderr.log 的路径(如果未重定向,则为空字符串)

class torch.distributed.elastic.multiprocessing.api.DefaultLogsSpecs(log_dir=None, redirects=Std.NONE, tee=Std.NONE, local_ranks_filter=None)[source][source]

默认 LogsSpecs 实现

  • 如果 log_dir 不存在,则会创建它

  • 为每次尝试和秩生成嵌套文件夹。

reify(envs)[source][source]

使用以下方案构建日志目标路径

  • <log_dir>/<rdzv_run_id>/attempt_<attempt>/<rank>/stdout.log

  • <log_dir>/<rdzv_run_id>/attempt_<attempt>/<rank>/stderr.log

  • <log_dir>/<rdzv_run_id>/attempt_<attempt>/<rank>/error.json

返回类型

LogsDest

class torch.distributed.elastic.multiprocessing.api.LogsDest(stdouts=<factory>, stderrs=<factory>, tee_stdouts=<factory>, tee_stderrs=<factory>, error_files=<factory>)[source][source]

对于每种日志类型,都持有本地秩 ID 到文件路径的映射。

class torch.distributed.elastic.multiprocessing.api.LogsSpecs(log_dir=None, redirects=Std.NONE, tee=Std.NONE, local_ranks_filter=None)[source][source]

定义每个工作进程的日志处理和重定向。

参数
  • log_dir (Optional[str]) – 日志将写入的基础目录。

  • redirects (Union[Std, Dict[int, Std]]) – 要重定向到文件的流。传递单个 Std 枚举以重定向所有工作进程,或传递按 local_rank 键控的映射以选择性地重定向。

  • tee (Union[Std, Dict[int, Std]]) – 要复制到 stdout/stderr 的流。传递单个 Std 枚举以复制所有工作进程的流,或传递按 local_rank 键控的映射以选择性地复制。

abstract reify(envs)[source][source]

给定环境变量,构建每个本地秩的日志文件目标。

Envs 参数包含每个本地秩的环境变量字典,其中条目在 _start_workers() 中定义。

返回类型

LogsDest

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源