多进程包 - torch.multiprocessing¶

torch.multiprocessing 是对原生 multiprocessing 模块的包装器。

它注册自定义化简器，这些化简器使用共享内存来提供对不同进程中相同数据的共享视图。一旦张量/存储器被移动到共享内存（参见 share_memory_()），就可以将其发送到其他进程，而无需进行任何复制。

该 API 与原始模块 100% 兼容 - 只需将 import multiprocessing 更改为 import torch.multiprocessing，即可将所有通过队列发送或通过其他机制共享的张量移动到共享内存。

由于 API 的相似性，我们不对此包的大部分内容进行文档化，建议参考原始模块的详细文档。

警告

如果主进程意外退出（例如，由于接收到的信号），Python 的 multiprocessing 有时无法清理其子进程。这是一个已知问题，因此如果您在中断解释器后看到任何资源泄漏，这可能意味着您遇到了这种情况。

策略管理¶

torch.multiprocessing.get_all_sharing_strategies()[source]¶: 返回当前系统上支持的一组共享策略。

torch.multiprocessing.set_sharing_strategy(new_strategy)[source]¶

设置共享 CPU 张量的策略。

参数: new_strategy (str) – 所选策略的名称。应为 get_all_sharing_strategies() 返回的值之一。

注意

适用于 Python >= 3.4。

这取决于 Python 的 multiprocessing 包中的 spawn 启动方法。

生成多个子进程来执行某些函数可以通过创建 Process 实例并调用 join 来等待它们完成。当处理单个子进程时，这种方法可以很好地工作，但当处理多个进程时，会存在潜在的问题。

即，顺序地加入进程意味着它们将顺序地终止。如果它们没有，并且第一个进程没有终止，那么进程终止将不会被注意到。此外，没有用于错误传播的原生工具。

下面的 spawn 函数解决了这些问题，并处理了错误传播、无序终止，并且将在检测到其中一个进程中的错误时主动终止进程。

torch.multiprocessing.spawn.spawn(fn, args=(), nprocs=1, join=True, daemon=False, start_method='spawn')[source]¶

生成 nprocs 个进程，这些进程运行使用 args 的 fn。

如果其中一个进程以非零退出状态退出，则其余进程将被杀死，并抛出一个包含终止原因的异常。如果在子进程中捕获到异常，它将被转发，并且其回溯将包含在父进程中抛出的异常中。

参数

fn (function) –
函数作为生成进程的入口点被调用。此函数必须在模块的顶层定义，以便它可以被腌制和生成。这是由 multiprocessing 强加的要求。

该函数被调用为 fn(i, *args)，其中 i 是进程索引，args 是传递的元组参数。
args (tuple) – 传递给 fn 的参数。
nprocs (int) – 要生成的进程数量。
join (bool) – 对所有进程执行阻塞加入。
daemon (bool) – 生成的进程的守护进程标志。如果设置为 True，则将创建守护进程。
start_method (str) – （已弃用）此方法将始终使用 spawn 作为启动方法。若要使用其他启动方法，请使用 start_processes()。

返回值

如果 join 为 True，则为 None；如果 join 为 False，则为 ProcessContext

class torch.multiprocessing.SpawnContext[source]¶

当使用 join=False 调用 spawn() 时返回。

join(timeout=None)¶

加入生成上下文中的一个或多个进程。

尝试在该生成上下文中加入一个或多个进程。如果其中一个进程以非零退出状态退出，此函数将杀死剩余的进程并抛出一个包含第一个进程退出原因的异常。

如果所有进程都已成功加入，则返回 True；如果还有更多进程需要加入，则返回 False。