EGreedyWrapper¶
- class torchrl.modules.EGreedyWrapper(*args, **kwargs)[源代码]¶
[已弃用] Epsilon-Greedy PO 包装器。
- 参数:
policy (TensorDictModule) – 确定性策略。
- 关键字参数:
eps_init (标量, 可选) – 初始 epsilon 值。默认值:1.0
eps_end (标量, 可选) – 最终 epsilon 值。默认值:0.1
annealing_num_steps (int, 可选) – epsilon 值达到 eps_end 值所需的步数
action_key (NestedKey, 可选) – 在输入 tensordict 中可以找到动作的键。默认值为
"action"
。action_mask_key (NestedKey, 可选) – 在输入 tensordict 中可以找到动作掩码的键。默认值为
None
(对应于无掩码)。spec (TensorSpec, 可选) – 如果提供,则将从此动作空间中采样动作。如果未提供,探索包装器将尝试从策略中恢复它。
注意
一旦模块被包装在
EGreedyWrapper
中,在训练循环中务必包含对step()
的调用以更新探索因子。由于不容易捕捉到此遗漏,如果省略此操作,将不会发出警告或异常!示例
>>> import torch >>> from tensordict import TensorDict >>> from torchrl.modules import EGreedyWrapper, Actor >>> from torchrl.data import Bounded >>> torch.manual_seed(0) >>> spec = Bounded(-1, 1, torch.Size([4])) >>> module = torch.nn.Linear(4, 4, bias=False) >>> policy = Actor(spec=spec, module=module) >>> explorative_policy = EGreedyWrapper(policy, eps_init=0.2) >>> td = TensorDict({"observation": torch.zeros(10, 4)}, batch_size=[10]) >>> print(explorative_policy(td).get("action")) tensor([[ 0.0000, 0.0000, 0.0000, 0.0000], [ 0.0000, 0.0000, 0.0000, 0.0000], [ 0.9055, -0.9277, -0.6295, -0.2532], [ 0.0000, 0.0000, 0.0000, 0.0000], [ 0.0000, 0.0000, 0.0000, 0.0000], [ 0.0000, 0.0000, 0.0000, 0.0000], [ 0.0000, 0.0000, 0.0000, 0.0000], [ 0.0000, 0.0000, 0.0000, 0.0000], [ 0.0000, 0.0000, 0.0000, 0.0000], [ 0.0000, 0.0000, 0.0000, 0.0000]], grad_fn=<AddBackward0>)