RewardClipping¶
- 类 torchrl.envs.transforms.RewardClipping(clamp_min: float = None, clamp_max: float = None, in_keys: Sequence[NestedKey] | None = None, out_keys: Sequence[NestedKey] | None = None)[source]¶
将奖励截取在 clamp_min 和 clamp_max 之间。
- 参数:
clip_min (标量) — 结果奖励的最小值。
clip_max (标量) — 结果奖励的最大值。
- transform_reward_spec(reward_spec: TensorSpec) TensorSpec [source]¶
变换奖励规格(spec),使结果规格与变换映射匹配。
- 参数:
reward_spec (TensorSpec) — 变换前的规格
- 返回:
变换后的预期规格