RewardClipping¶
- class torchrl.envs.transforms.RewardClipping(clamp_min: Optional[float] = None, clamp_max: Optional[float] = None, in_keys: Optional[Sequence[NestedKey]] = None, out_keys: Optional[Sequence[NestedKey]] = None)[source]¶
将奖励值裁剪到 clamp_min 和 clamp_max 之间。
- 参数:
clip_min (标量) – 结果奖励的最小值。
clip_max (标量) – 结果奖励的最大值。
- transform_reward_spec(reward_spec: TensorSpec) TensorSpec [source]¶
转换奖励规格,使结果规格与转换映射匹配。
- 参数:
reward_spec (TensorSpec) – 转换前的规格
- 返回:
转换后的预期规格