RewardClipping¶
- class torchrl.envs.transforms.RewardClipping(clamp_min: float = None, clamp_max: float = None, in_keys: Sequence[NestedKey] | None = None, out_keys: Sequence[NestedKey] | None = None)[source]¶
将奖励裁剪到 clamp_min 和 clamp_max 之间。
- 参数:
clip_min (标量) – 结果奖励的最小值。
clip_max (标量) – 结果奖励的最大值。
- transform_reward_spec(reward_spec: TensorSpec) TensorSpec [source]¶
转换奖励规范,以便结果规范与转换映射匹配。
- 参数:
reward_spec (TensorSpec) – 转换前的规范
- 返回值:
转换后的预期规范