ConstantKLController¶ class torchrl.data.ConstantKLController(*, kl_coef: float = None, model: nn.Module | None = None)[source]¶ 恒定 KL 控制器。 此控制器无论使用什么值进行更新,都保持固定系数。 关键字参数: kl_coef (float) – 计算奖励时乘以 KL 的系数。 model (nn.Module, 可选) – 需要控制的包装模型。必须具有属性 "kl_coef"。如果提供,则将就地更新 "kl_coef"。