多进程包 - torch.multiprocessing¶

torch.multiprocessing 是原生 multiprocessing 模块的包装器。

它注册了自定义的 reducer，使用共享内存来提供不同进程中相同数据的共享视图。一旦张量/存储（storage）被移动到共享内存（参见 share_memory_()），就可以在不进行任何拷贝的情况下将其发送到其他进程。

该 API 与原始模块 100% 兼容 - 只需将 import multiprocessing 改为 import torch.multiprocessing，就可以使通过队列发送或通过其他机制共享的所有张量移动到共享内存。

由于 API 的相似性，我们不对该包的大部分内容进行文档记录，建议参考原始模块的优秀文档。

警告

如果主进程突然退出（例如由于接收到信号），Python 的 multiprocessing 有时会无法清理其子进程。这是一个已知的问题，因此如果在中断解释器后看到任何资源泄漏，很可能就是这种情况发生了。

策略管理¶

torch.multiprocessing.get_all_sharing_strategies()[source][source]¶: 返回当前系统支持的共享策略集合。

torch.multiprocessing.get_sharing_strategy()[source][source]¶: 返回当前共享 CPU 张量的策略。

torch.multiprocessing.set_sharing_strategy(new_strategy)[source][source]¶

设置共享 CPU 张量的策略。

参数: new_strategy (str) – 所选策略的名称。应为 get_all_sharing_strategies() 返回的值之一。

注意

适用于 Python >= 3.4。

这依赖于 Python 的 multiprocessing 包中的 spawn 启动方法。

通过创建 Process 实例并调用 join 等待它们完成，可以生成多个子进程来执行某个函数。这种方法在处理单个子进程时效果很好，但在处理多个进程时可能会出现潜在问题。

具体来说，按顺序连接（joining）进程意味着它们将按顺序终止。如果不是这样，并且第一个进程没有终止，则进程终止将不会被注意到。此外，没有原生机制用于错误传播。

下面的 spawn 函数解决了这些问题，并负责错误传播、乱序终止，并在检测到其中一个进程发生错误时主动终止其他进程。

torch.multiprocessing.spawn.spawn(fn, args=(), nprocs=1, join=True, daemon=False, start_method='spawn')[source][source]¶

生成 nprocs 个进程，这些进程使用 args 运行 fn。

如果其中一个进程以非零退出状态退出，其余进程将被杀死，并抛出异常，指示终止原因。如果在子进程中捕获到异常，该异常将被转发，其回溯信息将包含在父进程中抛出的异常中。

参数

fn (函数) –
此函数作为生成的进程的入口点被调用。此函数必须在模块的顶层定义，以便可以被序列化（pickled）和生成（spawned）。这是 multiprocessing 强制的要求。

该函数以 fn(i, *args) 的形式调用，其中 i 是进程索引，args 是透传的参数元组。
args (元组) – 传递给 fn 的参数。
nprocs (int) – 要生成的进程数。
join (bool) – 对所有进程执行阻塞式连接（join）。
daemon (bool) – 生成进程的守护进程（daemon）标志。如果设置为 True，将创建守护进程。
start_method (str) – (已弃用) 此方法将始终使用 spawn 作为启动方法。要使用不同的启动方法，请使用 start_processes()。

返回

如果 join 为 True 则返回 None，如果 join 为 False 则返回 ProcessContext

class torch.multiprocessing.SpawnContext[source][source]¶

当调用 spawn() 时且 join=False 时返回。

join(timeout=None, grace_period=None)[source]¶

连接（join）spawn 上下文中的一个或多个进程。

尝试连接（join）此 spawn 上下文中的一个或多个进程。如果其中一个以非零退出状态退出，此函数将杀死其余进程（可选择给予宽限期），并抛出异常，指示第一个进程退出的原因。

如果所有进程都已成功连接（joined），则返回 True，如果还有更多进程需要连接，则返回 False。

参数

timeout (浮点数) – 等待此时长（秒）后放弃等待。
grace_period (浮点数) – 当任何进程失败时，等待此时长（秒）让其他进程优雅关闭，然后终止它们。如果它们仍未退出，则再等待一个宽限期后杀死它们。