可复现性¶
PyTorch 不同版本、不同提交或不同平台之间不保证完全可复现的结果。此外,即使使用相同的随机种子,CPU 和 GPU 执行之间的结果也可能无法复现。
但是,您可以采取一些措施来限制特定平台、设备和 PyTorch 版本中非确定性行为的来源。首先,您可以控制可能导致应用程序多次执行行为不同的随机性来源。其次,您可以配置 PyTorch,使其在某些操作中避免使用非确定性算法,以便对这些操作多次调用并在给定相同输入的情况下产生相同的结果。
警告
确定性操作通常比非确定性操作慢,因此模型的单次运行性能可能会下降。但是,确定性可以通过促进实验、调试和回归测试来节省开发时间。
控制随机性来源¶
PyTorch 随机数生成器¶
您可以使用 torch.manual_seed()
为所有设备(包括 CPU 和 CUDA)设置 RNG 的种子
import torch
torch.manual_seed(0)
一些 PyTorch 操作内部可能会使用随机数。例如,torch.svd_lowrank()
就是如此。因此,使用相同的输入参数连续多次调用它可能会得到不同的结果。但是,只要在应用程序开始时将 torch.manual_seed()
设置为常量,并且消除了所有其他非确定性来源,那么在相同的环境中每次运行应用程序时都会生成同一系列的随机数。
通过在后续调用之间将 torch.manual_seed()
设置为相同的值,也可以从使用随机数的操作中获得相同的结果。
其他库中的随机数生成器¶
如果您或您使用的任何库依赖于 NumPy,您可以使用以下方法为全局 NumPy RNG 设置种子
import numpy as np
np.random.seed(0)
然而,一些应用程序和库可能使用 NumPy Random Generator 对象,而不是全局 RNG (https://numpy.com.cn/doc/stable/reference/random/generator.html),这些也需要一致地设置种子。
如果您正在使用任何其他使用随机数生成器的库,请参阅这些库的文档以了解如何为它们设置一致的种子。
CUDA 卷积基准测试¶
CUDA 卷积操作使用的 cuDNN 库可能是应用程序多次执行之间非确定性的一个来源。当使用一组新的尺寸参数调用 cuDNN 卷积时,一个可选功能可以运行多种卷积算法,对其进行基准测试以找到最快的算法。然后,最快的算法将在过程的其余部分中为相应的尺寸参数集一致使用。由于基准测试噪声和不同的硬件,即使在同一台机器上,基准测试也可能在后续运行中选择不同的算法。
使用 torch.backends.cudnn.benchmark = False
禁用基准测试功能,会导致 cuDNN 确定性地选择一种算法,这可能会以降低性能为代价。
然而,如果您的应用程序不需要跨多次执行保持可复现性,那么启用基准测试功能(使用 torch.backends.cudnn.benchmark = True
)可能会提升性能。
请注意,此设置与下面讨论的 torch.backends.cudnn.deterministic
设置不同。
避免非确定性算法¶
torch.use_deterministic_algorithms()
允许您配置 PyTorch,使其在可用时使用确定性算法而不是非确定性算法,如果某个操作已知是非确定性的(且没有确定性替代方案),则抛出错误。
有关受影响操作的完整列表,请查阅 torch.use_deterministic_algorithms()
的文档。如果某个操作的行为与文档不符,或者您需要一个尚无确定性实现的操作的确定性实现,请提交 issue:https://github.com/pytorch/pytorch/issues?q=label:%22module:%20determinism%22
例如,运行 torch.Tensor.index_add_()
的非确定性 CUDA 实现将抛出错误
>>> import torch
>>> torch.use_deterministic_algorithms(True)
>>> torch.randn(2, 2).cuda().index_add_(0, torch.tensor([0, 1]), torch.randn(2, 2))
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
RuntimeError: index_add_cuda_ does not have a deterministic implementation, but you set
'torch.use_deterministic_algorithms(True)'. ...
当使用稀疏-密集 CUDA 张量调用 torch.bmm()
时,它通常使用非确定性算法,但当确定性标志打开时,将使用其替代的确定性实现。
>>> import torch
>>> torch.use_deterministic_algorithms(True)
>>> torch.bmm(torch.randn(2, 2, 2).to_sparse().cuda(), torch.randn(2, 2, 2).cuda())
tensor([[[ 1.1900, -2.3409],
[ 0.4796, 0.8003]],
[[ 0.1509, 1.8027],
[ 0.0333, -1.1444]]], device='cuda:0')
此外,如果您正在使用 CUDA 张量,并且您的 CUDA 版本是 10.2 或更高,您应该根据 CUDA 文档设置环境变量 CUBLAS_WORKSPACE_CONFIG:https://docs.nvda.net.cn/cuda/cublas/index.html#results-reproducibility
CUDA 卷积的确定性¶
尽管禁用 CUDA 卷积基准测试(如上所述)可以确保 CUDA 在每次运行应用程序时选择相同的算法,但该算法本身可能非确定性,除非设置了 torch.use_deterministic_algorithms(True)
或 torch.backends.cudnn.deterministic = True
。后者的设置仅控制此行为,而不像 torch.use_deterministic_algorithms()
会使其他 PyTorch 操作也表现出确定性。
CUDA RNN 和 LSTM¶
在某些 CUDA 版本中,RNN 和 LSTM 网络可能表现出非确定性行为。详情和解决方法请参阅 torch.nn.RNN()
和 torch.nn.LSTM()
。
填充未初始化内存¶
诸如 torch.empty()
和 torch.Tensor.resize_()
等操作可能会返回包含未定义值的未初始化内存张量。如果需要确定性,将此类张量用作另一个操作的输入是无效的,因为输出将是非确定性的。但实际上并没有什么可以阻止此类无效代码运行。因此,出于安全考虑,torch.utils.deterministic.fill_uninitialized_memory
默认设置为 True
,如果在设置了 torch.use_deterministic_algorithms(True)
的情况下,它会将未初始化内存用已知值填充。这将防止出现此类非确定性行为的可能性。
但是,填充未初始化内存对性能不利。因此,如果您的程序有效且不使用未初始化内存作为操作的输入,则可以关闭此设置以获得更好的性能。
DataLoader¶
DataLoader 将根据 多进程数据加载中的随机性 算法重新设置 worker 的种子。使用 worker_init_fn()
和 generator 来保持可复现性
def seed_worker(worker_id):
worker_seed = torch.initial_seed() % 2**32
numpy.random.seed(worker_seed)
random.seed(worker_seed)
g = torch.Generator()
g.manual_seed(0)
DataLoader(
train_dataset,
batch_size=batch_size,
num_workers=num_workers,
worker_init_fn=seed_worker,
generator=g,
)