HardUpdate¶ class torchrl.objectives.HardUpdate(loss_module: Union[DQNLoss, DDPGLoss, SACLoss, TD3Loss], *, value_network_update_interval: float = 1000)[source]¶ 用于双 DQN/DDPG 中目标网络更新的硬更新类(与软更新形成对比)。 这在最初的双 DQN 论文中提出:“具有双 Q 学习的深度强化学习”,https://arxiv.org/abs/1509.06461。 参数: loss_module (DQNLoss 或 DDPGLoss) – 应更新目标网络的损失模块。 关键字参数: value_network_update_interval (标量) – 目标网络应更新的频率。默认值:1000