OrnsteinUhlenbeckProcessWrapper¶

class torchrl.modules.OrnsteinUhlenbeckProcessWrapper(*args, **kwargs)[source]¶

Ornstein-Uhlenbeck 探索策略包装器。

在“使用深度强化学习的连续控制”中提出，https://arxiv.org/pdf/1509.02971.pdf。

OU 探索用于连续控制策略，并引入自相关的探索噪声。这实现了一种“结构化”探索。

噪声方程

\[noise_t = noise_{t-1} + \theta * (mu - noise_{t-1}) * dt + \sigma_t * \sqrt{dt} * W\]

Sigma 方程

\[\sigma_t = max(\sigma^{min, (-(\sigma_{t-1} - \sigma^{min}) / (n^{\text{steps annealing}}) * n^{\text{steps}} + \sigma))\]

为了跟踪从样本到样本的步骤和噪声，"ou_prev_noise{id}" 和 "ou_steps{id}" 键将被写入输入/输出 tensordict 中。预计 tensordict 将在重置时归零，表明正在收集新的轨迹。如果不是，并且相同的 tensordict 用于连续轨迹，则步数将持续增加整个 rollout 过程。请注意，收集器类负责在重置时将 tensordict 归零。

注意

一旦环境被包装在 OrnsteinUhlenbeckProcessWrapper 中，至关重要的是在训练循环中加入对 step() 的调用，以更新探索因子。由于不容易捕捉到这种遗漏，如果省略了此步骤，则不会发出警告或异常！

参数:

policy (TensorDictModule) – 策略

关键字参数:

eps_init (标量) – 初始 epsilon 值，决定要添加的噪声量。默认值：1.0
eps_end (标量) – 最终 epsilon 值，决定要添加的噪声量。默认值：0.1
annealing_num_steps (整数) – epsilon 值达到 eps_end 值所需的步数。默认值：1000
theta (标量) – 噪声方程中的 theta 因子。默认值：0.15
mu (标量) – OU 平均值（噪声方程中的 mu）。默认值：0.0
sigma (标量) – sigma 方程中的 sigma 值。默认值：0.2
dt (标量) – 噪声方程中的 dt。默认值：0.01
x0 (Tensor, ndarray, 可选) – 过程的初始值。默认值：0.0
sigma_min (数字, 可选) – sigma 方程中的 sigma_min。默认值：None
n_steps_annealing (整数) – sigma 退火的步数。默认值：1000
action_key (NestedKey, 可选) – 要修改的动作的键。默认值：“action”
is_init_key (NestedKey, 可选) – 用于重置噪声步数的 is_init 标志所在的键。默认值：“is_init”
spec (TensorSpec, 可选) – 如果提供，则采样的动作将在探索后投影到有效的动作空间中。如果未提供，探索包装器将尝试从策略中恢复它。
safe (布尔值) – 如果 True，超出动作规范范围的动作将根据 TensorSpec.project 启发式方法投影到空间中。默认值：True

示例

>>> import torch
>>> from tensordict import TensorDict
>>> from torchrl.data import Bounded
>>> from torchrl.modules import OrnsteinUhlenbeckProcessWrapper, Actor
>>> torch.manual_seed(0)
>>> spec = Bounded(-1, 1, torch.Size([4]))
>>> module = torch.nn.Linear(4, 4, bias=False)
>>> policy = Actor(module=module, spec=spec)
>>> explorative_policy = OrnsteinUhlenbeckProcessWrapper(policy)
>>> td = TensorDict({"observation": torch.zeros(10, 4)}, batch_size=[10])
>>> print(explorative_policy(td))
TensorDict(
    fields={
        _ou_prev_noise: Tensor(torch.Size([10, 4]), dtype=torch.float32),
        _ou_steps: Tensor(torch.Size([10, 1]), dtype=torch.int64),
        action: Tensor(torch.Size([10, 4]), dtype=torch.float32),
        observation: Tensor(torch.Size([10, 4]), dtype=torch.float32)},
    batch_size=torch.Size([10]),
    device=None,
    is_shared=False)

forward(tensordict: TensorDictBase) → TensorDictBase[source]¶

定义每次调用时执行的计算。

应由所有子类重写。

注意

尽管前向传递的配方需要在该函数内定义，但应在此之后调用 Module 实例，而不是此函数，因为前者负责运行注册的钩子，而后者则会静默地忽略它们。

step(frames: int = 1) → None[source]¶

更新 eps 噪声因子。

参数:: frames (整数) – 当前批次的帧数（对应于要进行的更新次数）。

OrnsteinUhlenbeckProcessWrapper¶

文档

教程

资源