注意

点击此处下载完整示例代码

TorchRL 目标：编码 DDPG 损失¶

创建日期：2023 年 8 月 14 日 | 最后更新：2025 年 3 月 20 日 | 最后验证：未验证

作者：Vincent Moens

概述¶

TorchRL 将强化学习 (RL) 算法的训练分解为多个部分，这些部分将在你的训练脚本中组合起来：环境、数据收集和存储、模型以及最后的损失函数。

TorchRL 损失（或称为“目标”）是包含可训练参数（策略和值模型）的状态对象。本教程将指导你从头开始使用 TorchRL 编写一个损失函数。

为此，我们将重点关注 DDPG，这是一个相对容易编码的算法。深度确定性策略梯度 (DDPG) 是一种简单的连续控制算法。它包括学习一个动作-观测对的参数化值函数，然后学习一个策略，该策略针对给定的观测输出最大化此值函数的动作。

你将学到什么

如何编写一个损失模块并自定义其值估计器；
如何在 TorchRL 中构建环境，包括变换（例如，数据归一化）和并行执行；
如何设计策略网络和值网络；
如何高效地从环境中收集数据并将其存储在回放缓冲区中；
如何在回放缓冲区中存储轨迹（而不是转换）；
如何评估你的模型。

先决条件¶

本教程假设你已完成 PPO 教程，该教程概述了 TorchRL 组件和依赖项，例如 tensordict.TensorDict 和 tensordict.nn.TensorDictModules，尽管本教程应该足够清晰，即使对这些类没有深入理解也能看懂。

注意

我们的目标并非提供该算法的 SOTA（State-of-the-Art，最先进）实现，而是为了高层次地阐述 TorchRL 的损失实现以及在该算法上下文中使用的库特性。

导入和设置¶

%%bash
pip3 install torchrl mujoco glfw

import torch
import tqdm

如果可用，我们将在 CUDA 上执行策略

is_fork = multiprocessing.get_start_method() == "fork"
device = (
    torch.device(0)
    if torch.cuda.is_available() and not is_fork
    else torch.device("cpu")
)
collector_device = torch.device("cpu")  # Change the device to ``cuda`` to use CUDA

TorchRL `LossModule`¶

TorchRL 提供了一系列可在训练脚本中使用的损失函数。其目标是提供易于重用/替换且签名简单的损失函数。

TorchRL 损失的主要特点是

它们是状态对象：它们包含可训练参数的副本，因此 loss_module.parameters() 提供训练算法所需的一切。
它们遵循 TensorDict 约定：torch.nn.Module.forward() 方法将接收一个从回放缓冲区中采样的 TensorDict 作为输入，其中包含返回损失值所需的所有信息。
```
>>> data = replay_buffer.sample()
>>> loss_dict = loss_module(data)
```
它们输出一个 tensordict.TensorDict 实例，其中损失值写在 "loss_<smth>" 下面，smth 是描述损失的字符串。TensorDict 中的其他键可能是有用的指标，可在训练期间记录。
注意

我们返回独立损失的原因是允许用户对不同的参数集使用不同的优化器。通过以下方式可以简单地求和损失：
```
>>> loss_val = sum(loss for key, loss in loss_dict.items() if key.startswith("loss_"))
```

The `init` 方法¶

所有损失的父类是 LossModule。与库中的许多其他组件一样，其 forward() 方法期望接收一个从经验回放缓冲区或任何类似数据结构中采样的 tensordict.TensorDict 实例作为输入。使用这种格式可以在不同模态下或在模型需要读取多个条目的复杂设置中重用模块。换句话说，它允许我们编码一个对输入数据类型无感知的损失模块，并专注于运行损失函数的基本步骤，仅此而已。

为了使本教程尽可能具有启发性，我们将独立展示类的每个方法，并在稍后阶段填充该类。

让我们从 __init__() 方法开始。DDPG 旨在用一个简单的策略解决控制任务：训练一个策略以输出最大化值网络预测的值的动作。因此，我们的损失模块在其构造函数中需要接收两个网络：一个 actor 网络和一个 value 网络。我们期望它们都是 TensorDict 兼容的对象，例如 tensordict.nn.TensorDictModule。我们的损失函数需要计算目标值并将值网络拟合到此目标值，并生成一个动作并拟合策略，使得其值估计被最大化。

The crucial step of the LossModule.__init__() 方法是调用 convert_to_functional()。此方法将从模块中提取参数并将其转换为函数式模块。严格来说，这不是必需的，完全可以在没有它的情况下编写所有损失。但是，我们鼓励使用它，原因如下。

TorchRL 这样做的原因是 RL 算法经常使用不同的参数集执行同一个模型，这些参数集被称为“可训练”参数和“目标”参数。“可训练”参数是优化器需要拟合的参数。“目标”参数通常是前者的一个副本，带有一定的时间延迟（绝对延迟或通过移动平均稀释）。这些目标参数用于计算与下一个观测值关联的值。为值模型使用一组与当前配置不完全匹配的目标参数的优点之一是，它们为正在计算的值函数提供了一个悲观的界限。请注意下面的 create_target_params 关键字参数：此参数告诉 convert_to_functional() 方法在损失模块中创建一组用于计算目标值的目标参数。如果将其设置为 False（例如，对于 actor 网络），target_actor_network_params 属性仍然可以访问，但这将仅返回 actor 参数的一个 分离的 版本。

稍后，我们将看到在 TorchRL 中如何更新目标参数。

from tensordict.nn import TensorDictModule, TensorDictSequential


def _init(
    self,
    actor_network: TensorDictModule,
    value_network: TensorDictModule,
) -> None:
    super(type(self), self).__init__()

    self.convert_to_functional(
        actor_network,
        "actor_network",
        create_target_params=True,
    )
    self.convert_to_functional(
        value_network,
        "value_network",
        create_target_params=True,
        compare_against=list(actor_network.parameters()),
    )

    self.actor_in_keys = actor_network.in_keys

    # Since the value we'll be using is based on the actor and value network,
    # we put them together in a single actor-critic container.
    actor_critic = ActorCriticWrapper(actor_network, value_network)
    self.actor_critic = actor_critic
    self.loss_function = "l2"

值估计器损失方法¶

在许多 RL 算法中，值网络（或 Q 值网络）是基于经验值估计进行训练的。这可以是自举的 (TD(0)，低方差，高偏差)，意味着目标值仅使用下一个奖励获得，别无其他；或者可以是 Monte-Carlo 估计 (TD(1))，在这种情况下将使用整个后续奖励序列（高方差，低偏差）。也可以使用中间估计器 (TD(\(\lambda\))) 来折衷偏差和方差。TorchRL 通过 ValueEstimators 枚举类使得使用其中一种估计器变得容易，该类包含所有已实现的值估计器的指针。这里我们定义默认值函数。我们将采用最简单的版本 (TD(0))，稍后展示如何更改它。

from torchrl.objectives.utils import ValueEstimators

default_value_estimator = ValueEstimators.TD0

我们还需要根据用户的查询，向 DDPG 提供一些关于如何构建值估计器的指令。根据提供的估计器，我们将构建用于训练时的相应模块

from torchrl.objectives.utils import default_value_kwargs
from torchrl.objectives.value import TD0Estimator, TD1Estimator, TDLambdaEstimator


def make_value_estimator(self, value_type: ValueEstimators, **hyperparams):
    hp = dict(default_value_kwargs(value_type))
    if hasattr(self, "gamma"):
        hp["gamma"] = self.gamma
    hp.update(hyperparams)
    value_key = "state_action_value"
    if value_type == ValueEstimators.TD1:
        self._value_estimator = TD1Estimator(value_network=self.actor_critic, **hp)
    elif value_type == ValueEstimators.TD0:
        self._value_estimator = TD0Estimator(value_network=self.actor_critic, **hp)
    elif value_type == ValueEstimators.GAE:
        raise NotImplementedError(
            f"Value type {value_type} it not implemented for loss {type(self)}."
        )
    elif value_type == ValueEstimators.TDLambda:
        self._value_estimator = TDLambdaEstimator(value_network=self.actor_critic, **hp)
    else:
        raise NotImplementedError(f"Unknown value type {value_type}")
    self._value_estimator.set_keys(value=value_key)

The make_value_estimator 方法可以调用，但并非必须：如果未调用，LossModule 将使用其默认估计器查询此方法。

Actor 损失方法¶

RL 算法的核心是 actor 的训练损失。对于 DDPG，此函数非常简单：我们只需要计算使用策略计算出的动作所关联的值，并优化 actor 权重以最大化此值。

在计算此值时，我们必须确保将值参数从图中取出，否则 actor 和 value 的损失会混淆。为此，可以使用 hold_out_params() 函数。

def _loss_actor(
    self,
    tensordict,
) -> torch.Tensor:
    td_copy = tensordict.select(*self.actor_in_keys)
    # Get an action from the actor network: since we made it functional, we need to pass the params
    with self.actor_network_params.to_module(self.actor_network):
        td_copy = self.actor_network(td_copy)
    # get the value associated with that action
    with self.value_network_params.detach().to_module(self.value_network):
        td_copy = self.value_network(td_copy)
    return -td_copy.get("state_action_value")

Value 损失方法¶

现在我们需要优化我们的值网络参数。为此，我们将依赖于我们类的值估计器

from torchrl.objectives.utils import distance_loss


def _loss_value(
    self,
    tensordict,
):
    td_copy = tensordict.clone()

    # V(s, a)
    with self.value_network_params.to_module(self.value_network):
        self.value_network(td_copy)
    pred_val = td_copy.get("state_action_value").squeeze(-1)

    # we manually reconstruct the parameters of the actor-critic, where the first
    # set of parameters belongs to the actor and the second to the value function.
    target_params = TensorDict(
        {
            "module": {
                "0": self.target_actor_network_params,
                "1": self.target_value_network_params,
            }
        },
        batch_size=self.target_actor_network_params.batch_size,
        device=self.target_actor_network_params.device,
    )
    with target_params.to_module(self.actor_critic):
        target_value = self.value_estimator.value_estimate(tensordict).squeeze(-1)

    # Computes the value loss: L2, L1 or smooth L1 depending on `self.loss_function`
    loss_value = distance_loss(pred_val, target_value, loss_function=self.loss_function)
    td_error = (pred_val - target_value).pow(2)

    return loss_value, td_error, pred_val, target_value

在 forward 调用中整合各部分¶

唯一缺少的部分是 forward 方法，它将把 value 损失和 actor 损失结合起来，收集成本值并将其写入一个 TensorDict 返回给用户。

from tensordict import TensorDict, TensorDictBase


def _forward(self, input_tensordict: TensorDictBase) -> TensorDict:
    loss_value, td_error, pred_val, target_value = self.loss_value(
        input_tensordict,
    )
    td_error = td_error.detach()
    td_error = td_error.unsqueeze(input_tensordict.ndimension())
    if input_tensordict.device is not None:
        td_error = td_error.to(input_tensordict.device)
    input_tensordict.set(
        "td_error",
        td_error,
        inplace=True,
    )
    loss_actor = self.loss_actor(input_tensordict)
    return TensorDict(
        source={
            "loss_actor": loss_actor.mean(),
            "loss_value": loss_value.mean(),
            "pred_value": pred_val.mean().detach(),
            "target_value": target_value.mean().detach(),
            "pred_value_max": pred_val.max().detach(),
            "target_value_max": target_value.max().detach(),
        },
        batch_size=[],
    )


from torchrl.objectives import LossModule


class DDPGLoss(LossModule):
    default_value_estimator = default_value_estimator
    make_value_estimator = make_value_estimator

    __init__ = _init
    forward = _forward
    loss_value = _loss_value
    loss_actor = _loss_actor

现在我们有了损失函数，就可以用它来训练一个策略来解决控制任务。

环境¶

在大多数算法中，首先需要处理的是环境的构建，因为它决定了训练脚本的其余部分。

对于此示例，我们将使用 "cheetah" 任务。目标是让半猎豹尽可能快地奔跑。

在 TorchRL 中，可以通过依赖 dm_control 或 gym 来创建此类任务

env = GymEnv("HalfCheetah-v4")

或

env = DMControlEnv("cheetah", "run")

默认情况下，这些环境禁用渲染。从状态进行训练通常比从图像进行训练更容易。为了保持简单，我们仅专注于从状态学习。要将像素传递给 env.step() 收集的 tensordicts，只需将 from_pixels=True 参数传递给构造函数

env = GymEnv("HalfCheetah-v4", from_pixels=True, pixels_only=True)

我们编写一个 make_env() 辅助函数，它将使用上面考虑的两个后端之一（dm-control 或 gym）创建环境。

from torchrl.envs.libs.dm_control import DMControlEnv
from torchrl.envs.libs.gym import GymEnv

env_library = None
env_name = None


def make_env(from_pixels=False):
    """Create a base ``env``."""
    global env_library
    global env_name

    if backend == "dm_control":
        env_name = "cheetah"
        env_task = "run"
        env_args = (env_name, env_task)
        env_library = DMControlEnv
    elif backend == "gym":
        env_name = "HalfCheetah-v4"
        env_args = (env_name,)
        env_library = GymEnv
    else:
        raise NotImplementedError

    env_kwargs = {
        "device": device,
        "from_pixels": from_pixels,
        "pixels_only": from_pixels,
        "frame_skip": 2,
    }
    env = env_library(*env_args, **env_kwargs)
    return env

Transforms（变换）¶

现在我们有了一个基础环境，可能想要修改其表示形式使其更适合策略。在 TorchRL 中，变换被添加到基础环境中的专门 torchr.envs.TransformedEnv 类中。

在 DDPG 中，通常会使用一些启发式值来重新缩放奖励。在此示例中，我们将奖励乘以 5。
如果我们使用 dm_control，构建模拟器（使用双精度数字）与我们的脚本（可能使用单精度数字）之间的接口也很重要。这种转换是双向的：当调用 env.step() 时，我们的动作需要以双精度表示，而输出需要转换为单精度。DoubleToFloat 变换正是执行此操作：in_keys 列表指的是需要从双精度转换为单精度的键，而 in_keys_inv 指的是在传递给环境之前需要转换为双精度的键。
我们使用 CatTensors 变换将状态键连接在一起。
最后，我们也保留了对状态进行归一化的可能性：我们将在稍后计算归一化常数。

from torchrl.envs import (
    CatTensors,
    DoubleToFloat,
    EnvCreator,
    InitTracker,
    ObservationNorm,
    ParallelEnv,
    RewardScaling,
    StepCounter,
    TransformedEnv,
)


def make_transformed_env(
    env,
):
    """Apply transforms to the ``env`` (such as reward scaling and state normalization)."""

    env = TransformedEnv(env)

    # we append transforms one by one, although we might as well create the
    # transformed environment using the `env = TransformedEnv(base_env, transforms)`
    # syntax.
    env.append_transform(RewardScaling(loc=0.0, scale=reward_scaling))

    # We concatenate all states into a single "observation_vector"
    # even if there is a single tensor, it'll be renamed in "observation_vector".
    # This facilitates the downstream operations as we know the name of the
    # output tensor.
    # In some environments (not half-cheetah), there may be more than one
    # observation vector: in this case this code snippet will concatenate them
    # all.
    selected_keys = list(env.observation_spec.keys())
    out_key = "observation_vector"
    env.append_transform(CatTensors(in_keys=selected_keys, out_key=out_key))

    # we normalize the states, but for now let's just instantiate a stateless
    # version of the transform
    env.append_transform(ObservationNorm(in_keys=[out_key], standard_normal=True))

    env.append_transform(DoubleToFloat())

    env.append_transform(StepCounter(max_frames_per_traj))

    # We need a marker for the start of trajectories for our Ornstein-Uhlenbeck (OU)
    # exploration:
    env.append_transform(InitTracker())

    return env

并行执行¶

以下辅助函数允许我们并行运行环境。并行运行环境可以显著加快数据收集吞吐量。使用变换环境时，我们需要选择是为每个环境单独执行变换，还是集中数据并批量进行变换。这两种方法都很容易编码

env = ParallelEnv(
    lambda: TransformedEnv(GymEnv("HalfCheetah-v4"), transforms),
    num_workers=4
)
env = TransformedEnv(
    ParallelEnv(lambda: GymEnv("HalfCheetah-v4"), num_workers=4),
    transforms
)

为了利用 PyTorch 的向量化能力，我们采用第一种方法

def parallel_env_constructor(
    env_per_collector,
    transform_state_dict,
):
    if env_per_collector == 1:

        def make_t_env():
            env = make_transformed_env(make_env())
            env.transform[2].init_stats(3)
            env.transform[2].loc.copy_(transform_state_dict["loc"])
            env.transform[2].scale.copy_(transform_state_dict["scale"])
            return env

        env_creator = EnvCreator(make_t_env)
        return env_creator

    parallel_env = ParallelEnv(
        num_workers=env_per_collector,
        create_env_fn=EnvCreator(lambda: make_env()),
        create_env_kwargs=None,
        pin_memory=False,
    )
    env = make_transformed_env(parallel_env)
    # we call `init_stats` for a limited number of steps, just to instantiate
    # the lazy buffers.
    env.transform[2].init_stats(3, cat_dim=1, reduce_dim=[0, 1])
    env.transform[2].load_state_dict(transform_state_dict)
    return env


# The backend can be ``gym`` or ``dm_control``
backend = "gym"

注意

frame_skip 将多个步骤与一个动作打包在一起如果 > 1，则需要调整其他帧计数（例如 frames_per_batch、total_frames），以确保在实验中收集的总帧数一致。这很重要，因为增加 frame-skip 但保持总帧数不变可能看似作弊：综合比较，使用 frame-skip 为 2 收集的 10M 元素数据集和使用 frame-skip 为 1 收集的数据集的与环境交互的实际比例是 2:1！简而言之，在使用帧跳过时，应谨慎处理训练脚本的帧计数，因为这可能导致训练策略之间的比较产生偏差。

缩放奖励有助于我们控制信号幅度，从而实现更高效的学习。

reward_scaling = 5.0

我们还定义了轨迹何时被截断。一千步（如果 frame-skip = 2 则为 500 步）对于猎豹任务来说是一个不错的数字

max_frames_per_traj = 500

观测值归一化¶

为了计算归一化统计数据，我们在环境中运行任意数量的随机步骤，并计算收集到的观测值的均值和标准差。可以使用 ObservationNorm.init_stats() 方法来达到此目的。要获取汇总统计数据，我们创建一个虚拟环境，运行一定数量的步骤，在一定数量的步骤中收集数据并计算其汇总统计数据。

def get_env_stats():
    """Gets the stats of an environment."""
    proof_env = make_transformed_env(make_env())
    t = proof_env.transform[2]
    t.init_stats(init_env_steps)
    transform_state_dict = t.state_dict()
    proof_env.close()
    return transform_state_dict

归一化统计数据¶

使用 ObservationNorm 进行统计计算使用的随机步骤数

init_env_steps = 5000

transform_state_dict = get_env_stats()

每个数据收集器中的环境数量

env_per_collector = 4

我们将之前计算出的统计数据传递给环境以归一化其输出

parallel_env = parallel_env_constructor(
    env_per_collector=env_per_collector,
    transform_state_dict=transform_state_dict,
)


from torchrl.data import CompositeSpec

构建模型¶

现在我们转向模型的设置。正如我们所见，DDPG 需要一个值网络（训练用于估计状态-动作对的值）和一个参数化的 actor（学习如何选择最大化此值的动作）。

回想一下，构建一个 TorchRL 模块需要两个步骤

编写将用作网络的 torch.nn.Module，
将网络包装在 tensordict.nn.TensorDictModule 中，其中通过指定输入和输出键来处理数据流。

在更复杂的场景中，也可以使用 tensordict.nn.TensorDictSequential。

Q 值网络包装在 ValueOperator 中，它会自动将 Q 值网络的 out_keys 设置为 "state_action_value"，并将其他值网络的 out_keys 设置为 "state_value"。

TorchRL 提供了原始论文中提出的 DDPG 网络的内置版本。这些可以在 DdpgMlpActor 和 DdpgMlpQNet 下找到。

由于我们使用 lazy 模块，在能够将策略从一个设备移动到另一个设备并执行其他操作之前，需要实例化这些 lazy 模块。因此，用少量数据样本运行模块是一个好的实践。为此，我们从环境规范中生成假数据。

from torchrl.modules import (
    ActorCriticWrapper,
    DdpgMlpActor,
    DdpgMlpQNet,
    OrnsteinUhlenbeckProcessModule,
    ProbabilisticActor,
    TanhDelta,
    ValueOperator,
)


def make_ddpg_actor(
    transform_state_dict,
    device="cpu",
):
    proof_environment = make_transformed_env(make_env())
    proof_environment.transform[2].init_stats(3)
    proof_environment.transform[2].load_state_dict(transform_state_dict)

    out_features = proof_environment.action_spec.shape[-1]

    actor_net = DdpgMlpActor(
        action_dim=out_features,
    )

    in_keys = ["observation_vector"]
    out_keys = ["param"]

    actor = TensorDictModule(
        actor_net,
        in_keys=in_keys,
        out_keys=out_keys,
    )

    actor = ProbabilisticActor(
        actor,
        distribution_class=TanhDelta,
        in_keys=["param"],
        spec=CompositeSpec(action=proof_environment.action_spec),
    ).to(device)

    q_net = DdpgMlpQNet()

    in_keys = in_keys + ["action"]
    qnet = ValueOperator(
        in_keys=in_keys,
        module=q_net,
    ).to(device)

    # initialize lazy modules
    qnet(actor(proof_environment.reset().to(device)))
    return actor, qnet


actor, qnet = make_ddpg_actor(
    transform_state_dict=transform_state_dict,
    device=device,
)

探索¶

根据原始论文的建议，策略被传递到一个 OrnsteinUhlenbeckProcessModule 探索模块中。我们来定义 OU 噪声达到其最小值之前的帧数

annealing_frames = 1_000_000

actor_model_explore = TensorDictSequential(
    actor,
    OrnsteinUhlenbeckProcessModule(
        spec=actor.spec.clone(),
        annealing_num_steps=annealing_frames,
    ).to(device),
)
if device == torch.device("cpu"):
    actor_model_explore.share_memory()

数据收集器¶

TorchRL 提供了专门的类，帮助你通过在环境中执行策略来收集数据。这些“数据收集器”会迭代地计算给定时间要执行的动作，然后在环境中执行一步，并在需要时重置环境。数据收集器的设计旨在帮助开发者严格控制每批数据的帧数、收集的同步/异步特性以及分配给数据收集的资源（例如 GPU、工作进程数等）。

这里我们将使用 SyncDataCollector，这是一个简单的单进程数据收集器。TorchRL 还提供了其他收集器，例如 MultiaSyncDataCollector，它以异步方式执行 rollout（例如，在优化策略的同时收集数据，从而解耦训练和数据收集）。

需要指定的参数有

一个环境工厂或一个环境，
策略，
收集器被视为空之前总共的帧数，
每条轨迹的最大帧数（对于非终止环境很有用，例如 dm_control 环境）。

注意

传递给收集器的 max_frames_per_traj 将产生在用于推理的环境中注册一个新的 StepCounter 变换的效果。我们可以手动达到同样的结果，就像我们在这个脚本中所做的一样。

还需要传递

收集的每个批次中的帧数，
独立于策略执行的随机步骤数，
用于策略执行的设备
用于在数据传递给主进程之前存储数据的设备。

训练期间将使用的总帧数应约为 1M。

total_frames = 10_000  # 1_000_000

在外部循环的每次迭代中，收集器返回的帧数等于每个子轨迹的长度乘以每个收集器中并行运行的环境数量。

换句话说，我们期望收集器返回的批次的形状为 [env_per_collector, traj_len]，其中 traj_len=frames_per_batch/env_per_collector

traj_len = 200
frames_per_batch = env_per_collector * traj_len
init_random_frames = 5000
num_collectors = 2

from torchrl.collectors import SyncDataCollector
from torchrl.envs import ExplorationType

collector = SyncDataCollector(
    parallel_env,
    policy=actor_model_explore,
    total_frames=total_frames,
    frames_per_batch=frames_per_batch,
    init_random_frames=init_random_frames,
    reset_at_each_iter=False,
    split_trajs=False,
    device=collector_device,
    exploration_type=ExplorationType.RANDOM,
)

评估器：构建你的记录器对象¶

由于训练数据是使用某种探索策略获得的，因此我们的算法的真实性能需要在确定性模式下评估。我们使用一个专门的类 Recorder 来完成此操作，该类以给定频率在环境中执行策略，并返回从这些仿真中获得的一些统计数据。

以下辅助函数构建此对象

from torchrl.trainers import Recorder


def make_recorder(actor_model_explore, transform_state_dict, record_interval):
    base_env = make_env()
    environment = make_transformed_env(base_env)
    environment.transform[2].init_stats(
        3
    )  # must be instantiated to load the state dict
    environment.transform[2].load_state_dict(transform_state_dict)

    recorder_obj = Recorder(
        record_frames=1000,
        policy_exploration=actor_model_explore,
        environment=environment,
        exploration_type=ExplorationType.DETERMINISTIC,
        record_interval=record_interval,
    )
    return recorder_obj

我们将每收集 10 个批次记录一次性能

record_interval = 10

recorder = make_recorder(
    actor_model_explore, transform_state_dict, record_interval=record_interval
)

from torchrl.data.replay_buffers import (
    LazyMemmapStorage,
    PrioritizedSampler,
    RandomSampler,
    TensorDictReplayBuffer,
)

回放缓冲区¶

回放缓冲区有两种类型：优先回放（使用某种误差信号使某些条目比其他条目有更高的采样可能性）和常规的循环经验回放。

TorchRL 回放缓冲区是可组合的：可以选择存储、采样和写入策略。也可以使用内存映射数组在物理内存上存储张量。以下函数负责创建具有所需超参数的回放缓冲区

from torchrl.envs import RandomCropTensorDict


def make_replay_buffer(buffer_size, batch_size, random_crop_len, prefetch=3, prb=False):
    if prb:
        sampler = PrioritizedSampler(
            max_capacity=buffer_size,
            alpha=0.7,
            beta=0.5,
        )
    else:
        sampler = RandomSampler()
    replay_buffer = TensorDictReplayBuffer(
        storage=LazyMemmapStorage(
            buffer_size,
            scratch_dir=buffer_scratch_dir,
        ),
        batch_size=batch_size,
        sampler=sampler,
        pin_memory=False,
        prefetch=prefetch,
        transform=RandomCropTensorDict(random_crop_len, sample_dim=1),
    )
    return replay_buffer

我们将把回放缓冲区存储在磁盘上的一个临时目录中

import tempfile

tmpdir = tempfile.TemporaryDirectory()
buffer_scratch_dir = tmpdir.name

回放缓冲区存储和批次大小¶

TorchRL 重放缓冲区计算第一维度的元素数量。由于我们将向缓冲区输入轨迹，因此需要通过将其除以数据收集器产生的子轨迹长度来调整缓冲区大小。关于批大小，我们的采样策略是首先采样长度为 traj_len=200 的轨迹，然后再选择长度为 random_crop_len=25 的子轨迹来计算损失。这种策略平衡了存储特定长度的完整轨迹的需求与为损失函数提供足够多样性样本的需求。下图展示了数据流：一个收集器在每个批次中获取 8 帧数据，并行运行 2 个环境，将数据馈送到包含 1000 条轨迹的重放缓冲区，并从每条轨迹中采样长度为 2 个时间步的子轨迹。

Storing trajectories in the replay buffer

我们先从缓冲区中存储的帧数开始

def ceil_div(x, y):
    return -x // (-y)


buffer_size = 1_000_000
buffer_size = ceil_div(buffer_size, traj_len)

优先级重放缓冲区默认禁用

prb = False

我们还需要定义每收集一个批次数据执行多少次更新。这被称为更新/数据比率或 UTD 比率

update_to_data = 64

我们将使用长度为 25 的轨迹来计算损失

random_crop_len = 25

在原始论文中，作者在每收集一帧数据时使用一个包含 64 个元素的批次进行一次更新。在这里，我们复制相同的比率，但在每次批次收集时执行多次更新。我们调整了批次大小，以达到相同的每帧更新次数比率。

batch_size = ceil_div(64 * frames_per_batch, update_to_data * random_crop_len)

replay_buffer = make_replay_buffer(
    buffer_size=buffer_size,
    batch_size=batch_size,
    random_crop_len=random_crop_len,
    prefetch=3,
    prb=prb,
)

损失模块构建¶

我们使用刚刚创建的 actor 和 qnet 构建我们的损失模块。由于我们需要更新目标参数，我们_必须_创建一个目标网络更新器。

gamma = 0.99
lmbda = 0.9
tau = 0.001  # Decay factor for the target network

loss_module = DDPGLoss(actor, qnet)

让我们使用 TD(lambda) 估计器！

loss_module.make_value_estimator(ValueEstimators.TDLambda, gamma=gamma, lmbda=lmbda, device=device)

注意

离策略（Off-policy）通常使用 TD(0) 估计器。在这里，我们使用了 TD(\(\lambda\)) 估计器，这会引入一些偏差，因为某个状态之后的轨迹是使用过时的策略收集的。这个技巧，以及数据收集中使用的多步技巧，是“hack”的替代版本，尽管它们在回报估计中引入了偏差，但在实践中我们发现它们通常效果良好。

目标网络更新器¶

目标网络是离策略强化学习算法的关键组成部分。通过 HardUpdate 和 SoftUpdate 类可以轻松更新目标网络参数。它们以损失模块作为参数构建，并在训练循环的适当位置通过调用 updater.step() 完成更新。

from torchrl.objectives.utils import SoftUpdate

target_net_updater = SoftUpdate(loss_module, eps=1 - tau)

优化器¶

最后，我们将为策略网络和值网络使用 Adam 优化器

from torch import optim

optimizer_actor = optim.Adam(
    loss_module.actor_network_params.values(True, True), lr=1e-4, weight_decay=0.0
)
optimizer_value = optim.Adam(
    loss_module.value_network_params.values(True, True), lr=1e-3, weight_decay=1e-2
)
total_collection_steps = total_frames // frames_per_batch

训练策略¶

现在我们已经构建了所有需要的模块，训练循环非常简单直观。

rewards = []
rewards_eval = []

# Main loop

collected_frames = 0
pbar = tqdm.tqdm(total=total_frames)
r0 = None
for i, tensordict in enumerate(collector):

    # update weights of the inference policy
    collector.update_policy_weights_()

    if r0 is None:
        r0 = tensordict["next", "reward"].mean().item()
    pbar.update(tensordict.numel())

    # extend the replay buffer with the new data
    current_frames = tensordict.numel()
    collected_frames += current_frames
    replay_buffer.extend(tensordict.cpu())

    # optimization steps
    if collected_frames >= init_random_frames:
        for _ in range(update_to_data):
            # sample from replay buffer
            sampled_tensordict = replay_buffer.sample().to(device)

            # Compute loss
            loss_dict = loss_module(sampled_tensordict)

            # optimize
            loss_dict["loss_actor"].backward()
            gn1 = torch.nn.utils.clip_grad_norm_(
                loss_module.actor_network_params.values(True, True), 10.0
            )
            optimizer_actor.step()
            optimizer_actor.zero_grad()

            loss_dict["loss_value"].backward()
            gn2 = torch.nn.utils.clip_grad_norm_(
                loss_module.value_network_params.values(True, True), 10.0
            )
            optimizer_value.step()
            optimizer_value.zero_grad()

            gn = (gn1**2 + gn2**2) ** 0.5

            # update priority
            if prb:
                replay_buffer.update_tensordict_priority(sampled_tensordict)
            # update target network
            target_net_updater.step()

    rewards.append(
        (
            i,
            tensordict["next", "reward"].mean().item(),
        )
    )
    td_record = recorder(None)
    if td_record is not None:
        rewards_eval.append((i, td_record["r_evaluation"].item()))
    if len(rewards_eval) and collected_frames >= init_random_frames:
        target_value = loss_dict["target_value"].item()
        loss_value = loss_dict["loss_value"].item()
        loss_actor = loss_dict["loss_actor"].item()
        rn = sampled_tensordict["next", "reward"].mean().item()
        rs = sampled_tensordict["next", "reward"].std().item()
        pbar.set_description(
            f"reward: {rewards[-1][1]: 4.2f} (r0 = {r0: 4.2f}), "
            f"reward eval: reward: {rewards_eval[-1][1]: 4.2f}, "
            f"reward normalized={rn :4.2f}/{rs :4.2f}, "
            f"grad norm={gn: 4.2f}, "
            f"loss_value={loss_value: 4.2f}, "
            f"loss_actor={loss_actor: 4.2f}, "
            f"target value: {target_value: 4.2f}"
        )

    # update the exploration strategy
    actor_model_explore[1].step(current_frames)

collector.shutdown()
del collector

实验结果¶

我们绘制了训练期间的平均奖励图。我们可以看到我们的策略很好地学会了如何解决任务。

注意

如上所述，为了获得更合理的性能，请使用更大的 total_frames 值，例如 1M。

from matplotlib import pyplot as plt

plt.figure()
plt.plot(*zip(*rewards), label="training")
plt.plot(*zip(*rewards_eval), label="eval")
plt.legend()
plt.xlabel("iter")
plt.ylabel("reward")
plt.tight_layout()

结论¶

在本教程中，我们学习了如何以 DDPG 的具体示例为基础，在 TorchRL 中编写一个损失模块。

关键要点包括

如何使用 LossModule 类编写一个新的损失组件；
如何使用（或不使用）目标网络，以及如何更新其参数；
如何创建与损失模块相关的优化器。

后续步骤¶

要在此损失模块上进一步迭代，我们可以考虑

使用 @dispatch（参见 [Feature] Distpatch IQL loss module。）
允许灵活的 TensorDict 键。

脚本总运行时间： ( 0 分钟 0.000 秒)

由 Sphinx-Gallery 生成的画廊