常见的 PyTorch 错误和解决方案¶

梯度相关错误 [新手]¶

新手在从头编写强化学习算法时经常面临梯度相关问题。典型的训练循环通常可以概括如下：

obs = env.reset()

for _ in range(n_training_steps):
    # STEP 1: data collection
    # Get a new datapoint "online"
    observations = []
    actions = []
    others = []
    for _ in range(n_data_per_training):
        with torch.no_grad():
            action = policy(obs)
        obs, *other = env.step(action)
        observations.append(obs)
        actions.append(action)
        others.append(other)
    replay_buffer.extend(observations, actions, others)

    # STEP 2: loss and optimization
    # => compute loss "offline"
    loss = loss_fn(replay_buffer.sample(batch_size))

    loss.backward()
    optim.step()
    optim.zero_grad()

一系列错误源于试图通过由 no_grad() 上下文管理器修饰的策略操作进行反向传播。实际上，此操作（在大多数情况下）不应是任何计算图的一部分。相反，所有可微分操作应在 loss_fn(...) 抽象中执行。总的来说，在强化学习领域，应该注意区分哪些应视为不可微分的“数据”（例如，环境交互、优势函数和回报计算、PPO 中的“分母”对数概率），哪些应视为可微分的损失结果（例如，价值误差、PPO 中的“分子”对数概率）。

与这种误解相关的常见错误如下：

RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). 此错误通常出现在计算图中的数据点在损失函数中被使用了两次之后。一些用户试图通过调用 loss.backward(retain_graph=True) 来修复此问题，但这将导致本列表中的下一个错误。 相关的 PyTorch 错误讨论
- 此处
- 此处
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation 此错误通常在用户通过设置 retain_graph=True 标志来修复第一个错误后出现。正确的做法是，需要在 loss_fn 中重新计算需要进行微分的操作。另一个常见原因是两个模块使用共享计算图进行更新（例如策略和评论家）。在这种情况下，应该使用 retain_graph=True 标志，尽管需要小心，因为这可能会将一个损失的梯度累积到另一个损失上。一般来说，更好的做法是为每个损失单独重新计算每个中间值，同时从特定图中排除不必要的参数，即使某些子模块的前向调用是相同的。 相关的 PyTorch 错误讨论
- 此处
- 此处
算法不学习 / param.grad 为 0 或 None。算法不学习可能有多种原因。首先要检查的是参数梯度的值，其范数应严格非负。 相关的 PyTorch 错误讨论
- 此处

我的训练太慢了 [新手 / 中级]¶

在某些情况下，众所周知强化学习是 CPU 密集型的。即使并行运行少量环境，通过在集群上请求比您正在处理的环境数量更多的核心（例如两倍），您也会看到巨大的速度提升。对于需要渲染的环境尤其如此（即使它们是在 GPU 上渲染的）。
训练速度取决于几个因素，没有一种万能的解决方案适用于所有问题。常见的瓶颈是：
- 数据收集：模拟器速度可能会影响性能，后续的数据转换也是如此。加速环境交互通常通过向量化（如果模拟器支持，例如 Brax 和其他基于 Jax 的模拟器）或并行化（在 gym 和其他库中不恰当地称为向量化环境）来实现。在 TorchRL 中，转换通常可以在设备上执行。
- 经验回放缓冲区存储和采样：如果底层操作需要大量的内存操作或繁琐的索引（例如使用优先级经验回放缓冲区），将条目存储到经验回放缓冲区可能会耗时。如果数据不是连续存储且/或执行了耗时的堆叠或连接操作，采样也可能花费相当长的时间。TorchRL 在这些情况下提供了高效的连续存储解决方案以及高效的写入和采样解决方案。
- 优势计算：计算优势函数也可能构成计算瓶颈，因为这些通常是使用简单的 for 循环编写的。如果性能分析表明此操作耗时较长，请考虑改用我们完全向量化的解决方案。
- 损失计算：损失计算和优化步骤经常占用了相当一部分计算时间。一些技术可以加速此过程。例如，如果使用了多个目标网络，使用向量化映射和函数式编程（通过 functorch）而不是遍历模型配置，可以显著提高速度。

常见 bug¶

对于与 mujoco 相关的 bug（包括 DeepMind Control suite 和其他库），请参考 MUJOCO_INSTALLATION 文件。
ValueError: bad value(s) in fds_to_keep：这可能有多种原因。在 torchrl 中常见的一个原因是，您试图在进程之间发送一个作为另一个张量视图的张量。例如，当在进程之间发送张量 b = tensor.expand(new_shape) 时，对原始内容的引用将丢失（因为 expand 操作保留了对原始张量的引用）。要调试此问题，请查找此类操作（view, permute, expand 等），并在调用函数后调用 clone() 或 contiguous()。

常见的 PyTorch 错误和解决方案¶

我的训练太慢了 [新手 / 中级]¶

常见 bug¶

文档

教程

资源