快捷方式

AdditiveGaussianWrapper

class torchrl.modules.tensordict_module.AdditiveGaussianWrapper(*args, **kwargs)[源代码]

加性高斯 PO 包装器。

参数::

policy (TensorDictModule) – 策略。

关键字参数::
  • sigma_init (标量, 可选) – 初始 epsilon 值。默认值:1.0

  • sigma_end (标量, 可选) – 最终 epsilon 值。默认值:0.1

  • annealing_num_steps (int, 可选) – sigma 达到 sigma_end 值所需的步数。

  • mean (float, 可选) – 每个输出元素的正态分布的均值。

  • std (float, 可选) – 每个输出元素的正态分布的标准差。

  • action_key (嵌套键, 可选) – 如果策略模块具有多个输出键,则其输出规范将为 CompositeSpec 类型。需要知道在哪里可以找到动作规范。默认值为“action”。

  • spec (TensorSpec, 可选) – 如果提供,则探索后的采样动作将被投影到有效的动作空间上。如果没有提供,则探索包装器将尝试从策略中恢复它。

  • safe (布尔值, 可选) – 如果为 False,则 TensorSpec 可以为 None。如果设置为 False 但传递了规范,则仍然会发生投影。默认值为 True。

注意

一旦环境被包装在 AdditiveGaussianWrapper 中,在训练循环中将 step() 的调用合并起来以更新探索因子至关重要。由于很难捕获此遗漏,因此如果遗漏了它,不会发出警告或异常!

forward(tensordict: TensorDictBase) TensorDictBase[源代码]

定义每次调用时执行的计算。

应该被所有子类覆盖。

注意

虽然需要在此函数中定义前向传递的配方,但应该调用 Module 实例,而不是此函数,因为前者负责运行已注册的钩子,而后者会静默地忽略它们。

step(frames: int = 1) None[源代码]

sigma 衰减的一步。

在 self.annealing_num_steps 之后,此函数为无操作。

参数::

frames (int) – 自上次步骤以来的帧数。

文档

访问 PyTorch 的全面的开发者文档

查看文档

教程

获得针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源