next_state_value¶
- class torchrl.objectives.next_state_value(tensordict: TensorDictBase, operator: Optional[TensorDictModule] = None, next_val_key: str = 'state_action_value', gamma: float = 0.99, pred_next_val: Optional[Tensor] = None, **kwargs)[source]¶
计算下一个状态值(没有梯度)以计算目标值。
- 目标值通常用于计算距离损失(例如 MSE)
L = Sum[ (q_value - target_value)^2 ]
- 目标值的计算方法为
r + gamma ** n_steps_to_next * value_next_state
如果奖励是即时奖励,则 n_steps_to_next=1。如果使用 N 步奖励,则 n_steps_to_next 从输入 tensordict 中收集。
- 参数:
tensordict (TensorDictBase) – 包含奖励和完成键的 Tensordict(以及用于 n 步奖励的 n_steps_to_next 键)。
operator (ProbabilisticTDModule, optional) – 值函数运算符。在被调用时,应在输入 tensordict 中写入“next_val_key”键值对。如果提供 pred_next_val,则不需要提供它。
next_val_key (str, optional) – 将写入下一个值的键。默认值:'state_action_value'
gamma (float, optional) – 返回折扣率。默认值:0.99
pred_next_val (Tensor, optional) – 如果未使用运算符计算下一个状态值,则可以提供它。
- 返回:
一个大小与输入 tensordict 相同的张量,其中包含预测的值状态。