快捷方式

VecNorm

class torchrl.envs.transforms.VecNorm(in_keys: Sequence[NestedKey] | None = None, out_keys: Sequence[NestedKey] | None = None, shared_td: Optional[TensorDictBase] = None, lock: mp.Lock = None, decay: float = 0.9999, eps: float = 0.0001, shapes: List[torch.Size] = None)[源代码]

用于 torchrl 环境的移动平均归一化层。

VecNorm 跟踪数据集的汇总统计信息,以便即时对其进行标准化。如果转换处于“评估”模式,则不会更新运行统计信息。

如果多个进程正在运行类似的环境,则可以传递一个放置在共享内存中的 TensorDictBase 实例:如果是这样,每次查询归一化层时,它都会更新共享相同引用的所有进程的值。

要在推理时使用 VecNorm 并避免使用新观察结果更新值,应使用 to_observation_norm() 替换此层。这将提供 VecNorm 的静态版本,当源转换更新时,该版本不会更新。要获取 VecNorm 层的冻结副本,请参阅 frozen_copy()

参数:
  • in_keys (嵌套键序列, 可选) – 要更新的键。默认值:[“observation”, “reward”]

  • out_keys (嵌套键序列, 可选) – 目标键。默认为 in_keys

  • shared_td (TensorDictBase, 可选) – 包含转换键的共享 tensordict。

  • lock (mp.Lock) – 用于防止进程之间出现竞争条件的锁。默认为 None(在初始化期间创建锁)。

  • decay (数字, 可选) – 移动平均值的衰减率。默认值:0.99

  • eps (数字, 可选) – 运行标准差的下限(用于数值下溢)。默认为 1e-4。

  • shapes (List[torch.Size], 可选) – 如果提供,则表示每个 in_keys 的形状。其长度必须与 in_keys 的长度匹配。每个形状必须与相应条目的尾随维度匹配。如果不是,则条目的特征维度(即不属于 tensordict 批次大小的所有维度)将被视为特征维度。

示例

>>> from torchrl.envs.libs.gym import GymEnv
>>> t = VecNorm(decay=0.9)
>>> env = GymEnv("Pendulum-v0")
>>> env = TransformedEnv(env, t)
>>> tds = []
>>> for _ in range(1000):
...     td = env.rand_step()
...     if td.get("done"):
...         _ = env.reset()
...     tds += [td]
>>> tds = torch.stack(tds, 0)
>>> print((abs(tds.get(("next", "observation")).mean(0))<0.2).all())
tensor(True)
>>> print((abs(tds.get(("next", "observation")).std(0)-1)<0.2).all())
tensor(True)
static build_td_for_shared_vecnorm(env: EnvBase, keys: Optional[Sequence[str]] = None, memmap: bool = False) TensorDictBase[源代码]

创建用于跨进程归一化的共享 tensordict。

参数:
  • env (EnvBase) – 用于创建 tensordict 的示例环境

  • keys (嵌套键序列, 可选) – 必须标准化的键。默认为 [“next”, “reward”]

  • memmap (bool) – 如果为 True,则生成的 tensordict 将转换为内存映射(使用 memmap_())。否则,tensordict 将放置在共享内存中。

返回值:

一个共享内存中的内存,将发送到每个进程。

示例

>>> from torch import multiprocessing as mp
>>> queue = mp.Queue()
>>> env = make_env()
>>> td_shared = VecNorm.build_td_for_shared_vecnorm(env,
...     ["next", "reward"])
>>> assert td_shared.is_shared()
>>> queue.put(td_shared)
>>> # on workers
>>> v = VecNorm(shared_td=queue.get())
>>> env = TransformedEnv(make_env(), v)
forward(tensordict: TensorDictBase) TensorDictBase

读取输入 tensordict,并对选定的键应用转换。

freeze() VecNorm[源代码]

冻结 VecNorm,避免在调用时更新统计信息。

参见 unfreeze()

frozen_copy()[source]

返回一个Transform的副本,该副本跟踪统计信息但不会更新它们。

get_extra_state() OrderedDict[source]

返回要包含在模块的state_dict中的任何额外状态。

如果您需要存储额外状态,请为您的模块实现此函数和相应的 set_extra_state()。构建模块的state_dict()时会调用此函数。

请注意,额外状态应该是可pickle的,以确保state_dict的序列化工作正常。我们仅为序列化张量提供向后兼容性保证;如果其他对象的序列化pickle形式发生变化,则可能会破坏向后兼容性。

返回值:

要存储在模块的state_dict中的任何额外状态

返回类型:

对象

property loc

返回一个包含用于仿射变换的loc的TensorDict。

property scale

返回一个包含用于仿射变换的scale的TensorDict。

set_extra_state(state: OrderedDict) None[source]

设置加载的state_dict中包含的额外状态。

此函数从load_state_dict()调用,以处理state_dict中发现的任何额外状态。如果您需要在模块的state_dict中存储额外状态,请为您的模块实现此函数和相应的 get_extra_state()

参数:

state (dict) – 来自state_dict的额外状态

property standard_normal

locscale给出的仿射变换是否遵循标准正态方程。

类似于ObservationNorm standard_normal属性。

始终返回True

to_observation_norm() Union[Compose, ObservationNorm][source]

将VecNorm转换为可在推理时使用的ObservationNorm类。

可以使用 state_dict() API更新ObservationNorm层。

示例

>>> from torchrl.envs import GymEnv, VecNorm
>>> vecnorm = VecNorm(in_keys=["observation"])
>>> train_env = GymEnv("CartPole-v1", device=None).append_transform(
...     vecnorm)
>>>
>>> r = train_env.rollout(4)
>>>
>>> eval_env = GymEnv("CartPole-v1").append_transform(
...     vecnorm.to_observation_norm())
>>> print(eval_env.transform.loc, eval_env.transform.scale)
>>>
>>> r = train_env.rollout(4)
>>> # Update entries with state_dict
>>> eval_env.transform.load_state_dict(
...     vecnorm.to_observation_norm().state_dict())
>>> print(eval_env.transform.loc, eval_env.transform.scale)
transform_observation_spec(observation_spec: TensorSpec) TensorSpec[source]

转换观测规范,以便生成的规范与转换映射匹配。

参数:

observation_spec (TensorSpec) – 变换前的规范

返回值:

变换后的预期规范

unfreeze() VecNorm[source]

解冻VecNorm。

参见 freeze()

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取适合初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源