RewardScaling¶
- class torchrl.envs.transforms.RewardScaling(loc: Union[float, Tensor], scale: Union[float, Tensor], in_keys: Optional[Sequence[NestedKey]] = None, out_keys: Optional[Sequence[NestedKey]] = None, standard_normal: bool = False)[源代码]¶
奖励的仿射变换。
奖励根据以下公式进行变换
\[reward = reward * scale + loc\]- 参数:
loc (数字 或 torch.Tensor) – 仿射变换的位置
scale (数字 或 torch.Tensor) – 仿射变换的比例
standard_normal (bool, 可选) –
如果
True
,则变换将为\[reward = (reward-loc)/scale\]如同标准化一样进行。默认为 False。
- transform_reward_spec(reward_spec: TensorSpec) TensorSpec [源代码]¶
变换奖励规格,使结果规格与变换映射匹配。
- 参数:
reward_spec (TensorSpec) – 变换前的规格
- 返回:
变换后预期的规格