多进程包 - torch.multiprocessing¶

torch.multiprocessing 是对原生 multiprocessing 模块的包装器。

它注册自定义的 reducer，这些 reducer 使用共享内存来提供对不同进程中相同数据的共享视图。一旦张量/存储被移动到共享内存（参见 share_memory_()），就可以将它发送到其他进程，而无需进行任何复制。

该 API 与原始模块 100% 兼容 - 只需将 import multiprocessing 更改为 import torch.multiprocessing，就可以通过队列发送所有张量，或通过其他机制共享所有张量，并将它们移到共享内存中。

由于 API 的相似性，我们不会记录此包的大部分内容，建议参考原始模块的优质文档。

警告

如果主进程突然退出（例如，由于传入信号），Python 的 multiprocessing 有时无法清理其子进程。这是一个已知的缺陷，因此如果您在中断解释器后看到任何资源泄漏，这可能意味着这种情况刚刚发生在您身上。

策略管理¶

torch.multiprocessing.get_all_sharing_strategies()[source]¶: 返回当前系统支持的一组共享策略。

torch.multiprocessing.set_sharing_strategy(new_strategy)[source]¶

设置共享 CPU 张量的策略。

参数: new_strategy (str) – 所选策略的名称。应为 get_all_sharing_strategies() 返回的值之一。

注意

适用于 Python >= 3.4。

这取决于 Python 的 multiprocessing 包中的 spawn 启动方法。

可以通过创建 Process 实例并调用 join 来等待它们完成，从而启动多个子进程来执行某些功能。这种方法在处理单个子进程时效果很好，但在处理多个进程时会存在潜在问题。

也就是说，按顺序连接进程意味着它们将按顺序终止。如果它们没有，并且第一个进程没有终止，则进程终止将不会被注意到。此外，没有用于错误传播的原生工具。

下面的 spawn 函数解决了这些问题，并负责错误传播、乱序终止，并在检测到其中一个进程中的错误时主动终止进程。

torch.multiprocessing.spawn.spawn(fn, args=(), nprocs=1, join=True, daemon=False, start_method='spawn')[source]¶

生成 nprocs 个进程，这些进程运行 fn 并使用 args。

如果其中一个进程以非零退出状态退出，则会杀死剩余的进程，并引发一个异常，其中包含终止原因。如果在子进程中捕获到异常，则会转发该异常，并且其回溯信息将包含在父进程中引发的异常中。

参数

fn (function) –
该函数被调用作为生成进程的入口点。此函数必须在模块的顶层定义，以便可以将其腌制并生成。这是多处理强加的要求。

该函数被调用为 fn(i, *args)，其中 i 是进程索引，args 是传递的元组参数。
args (tuple) – 传递给 fn 的参数。
nprocs (int) – 要生成的进程数。
join (bool) – 对所有进程执行阻塞连接。
daemon (bool) – 生成的进程的守护进程标志。如果设置为 True，则会创建守护进程。
start_method (str) – (已弃用) 此方法将始终使用 spawn 作为启动方法。要使用其他启动方法，请使用 start_processes()。

返回值

如果 join 为 True，则为 None；如果 join 为 False，则为 ProcessContext

class torch.multiprocessing.SpawnContext[source]¶

当 spawn() 使用 join=False 调用时返回。

join(timeout=None)¶

在 spawn 上下文中加入一个或多个进程。

尝试在 spawn 上下文中加入一个或多个进程。如果其中一个进程以非零退出状态退出，则此函数将杀死剩余的进程并引发一个包含第一个进程退出原因的异常。

如果所有进程都已成功加入，则返回 True；如果还有更多进程需要加入，则返回 False。