RSSMPrior¶
- class torchrl.modules.RSSMPrior(action_spec, hidden_dim=200, rnn_hidden_dim=200, state_dim=30, scale_lb=0.1)[来源]¶
RSSM 的先验网络。
此网络将先前的状态和置信度以及当前动作作为输入。它返回下一个先验状态和置信度,以及先验状态分布的参数。状态是构造上的随机状态,置信度是确定性状态。在“Dream to control”中,它们分别被称为“确定性状态”和“随机状态”。
参考: https://arxiv.org/abs/1811.04551
- 参数:
action_spec (TensorSpec) – 动作规范。
hidden_dim (int, 可选) – 线性网络中的隐藏单元数。循环网络的输入大小。默认为 200。
rnn_hidden_dim (int, 可选) – 循环网络中的隐藏单元数。也是置信度的大小。默认为 200。
state_dim (int, 可选) – 状态大小。默认为 30。
scale_lb (float, 可选) – 状态分布的尺度的下限。默认为 0.1。