快捷方式

RSSMPrior

class torchrl.modules.RSSMPrior(action_spec, hidden_dim=200, rnn_hidden_dim=200, state_dim=30, scale_lb=0.1)[源]

RSSM 的先验网络。

该网络接收先前的状态和信念以及当前的动作作为输入。它返回下一个先验状态和信念,以及先验状态分布的参数。状态按设计是随机的,而信念是确定性的。在“Dream to control”论文中,它们分别被称为“确定性状态”和“随机状态”。

参考:https://arxiv.org/abs/1811.04551

参数:
  • action_spec (TensorSpec) – 动作规范。

  • hidden_dim (int, 可选) – 线性网络中的隐藏单元数量。循环网络的输入大小。默认为 200。

  • rnn_hidden_dim (int, 可选) – 循环网络中的隐藏单元数量。也是信念的大小。默认为 200。

  • state_dim (int, 可选) – 状态的大小。默认为 30。

  • scale_lb (float, 可选) – 状态分布尺度的下限。默认为 0.1。

forward(state, belief, action)[源]

定义每次调用时执行的计算。

应由所有子类覆盖。

注意

尽管前向传播(forward pass)的实现需要在该函数内定义,但后续应调用 Module 实例而非直接调用此函数,因为前者会处理注册的钩子(hook),而后者会默默忽略它们。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取适合初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源