VecNorm¶

class torchrl.envs.transforms.VecNorm(in_keys: Sequence[NestedKey] | None = None, out_keys: Sequence[NestedKey] | None = None, shared_td: Optional[TensorDictBase] = None, lock: mp.Lock = None, decay: float = 0.9999, eps: float = 0.0001, shapes: List[torch.Size] = None)[source]¶

用于 torchrl 环境的移动平均归一化层。

VecNorm 跟踪数据集的汇总统计信息，以便进行即时标准化。如果变换处于“eval”模式，则不会更新运行中的统计信息。

如果多个进程正在运行类似的环境，可以传递一个放置在共享内存中的 TensorDictBase 实例：在这种情况下，每次查询归一化层时，都会更新共享同一引用的所有进程的值。

为了在推理时使用 VecNorm 并避免使用新观测值更新值，应将此层替换为 to_observation_norm()。这将提供一个静态版本的 VecNorm，当源变换更新时，它不会被更新。要获取 VecNorm 层的冻结副本，请参阅 frozen_copy()。

参数:

in_keys (NestedKey 的序列, 可选) – 要更新的键。默认值: [“observation”, “reward”]
out_keys (NestedKey 的序列, 可选) – 目标键。默认值为 in_keys。
shared_td (TensorDictBase, 可选) – 包含变换键的共享 tensordict。
lock (mp.Lock) – 用于防止进程之间出现竞争条件的锁。默认值为 None（在初始化期间创建锁）。
decay (数字, 可选) – 移动平均的衰减率。默认值: 0.99
eps (数字, 可选) – 运行标准差的下界（用于防止数值下溢）。默认值为 1e-4。
shapes (List[torch.Size], 可选) – 如果提供，表示每个 in_keys 的形状。其长度必须与 in_keys 的长度匹配。每个形状必须与对应条目的尾部维度匹配。否则，条目的特征维度（即不属于 tensordict batch-size 的所有维度）将被视为特征维度。

示例

>>> from torchrl.envs.libs.gym import GymEnv
>>> t = VecNorm(decay=0.9)
>>> env = GymEnv("Pendulum-v0")
>>> env = TransformedEnv(env, t)
>>> tds = []
>>> for _ in range(1000):
...     td = env.rand_step()
...     if td.get("done"):
...         _ = env.reset()
...     tds += [td]
>>> tds = torch.stack(tds, 0)
>>> print((abs(tds.get(("next", "observation")).mean(0))<0.2).all())
tensor(True)
>>> print((abs(tds.get(("next", "observation")).std(0)-1)<0.2).all())
tensor(True)

static build_td_for_shared_vecnorm(env: EnvBase, keys: Optional[Sequence[str]] = None, memmap: bool = False) → TensorDictBase[source]¶

创建用于跨进程归一化的共享 tensordict。

参数:

env (EnvBase) – 用于创建 tensordict 的示例环境
keys (NestedKey 的序列, 可选) – 需要归一化的键。默认值为 [“next”, “reward”]
memmap (bool) – 如果为 True，生成的 tensordict 将被转换为内存映射（使用 memmap_()）。否则，tensordict 将被放置在共享内存中。

返回值:

一个共享内存区域，用于发送给每个进程。

示例

>>> from torch import multiprocessing as mp
>>> queue = mp.Queue()
>>> env = make_env()
>>> td_shared = VecNorm.build_td_for_shared_vecnorm(env,
...     ["next", "reward"])
>>> assert td_shared.is_shared()
>>> queue.put(td_shared)
>>> # on workers
>>> v = VecNorm(shared_td=queue.get())
>>> env = TransformedEnv(make_env(), v)

forward(tensordict: TensorDictBase) → TensorDictBase¶: 读取输入的 tensordict，并对选定的键应用变换。

freeze() → VecNorm[source]¶

冻结 VecNorm，调用时避免更新统计信息。

参见 unfreeze()。

frozen_copy()[source]¶: 返回变换的副本，该副本跟踪统计信息但不更新它们。

get_extra_state() → OrderedDict[source]¶

返回要包含在模块 state_dict 中的任何额外状态。

如果您需要存储额外状态，请为您的模块实现此函数及相应的 set_extra_state()。构建模块的 state_dict() 时会调用此函数。

请注意，额外状态应可被 pickle 序列化，以确保 state_dict 的序列化正常工作。我们仅为 Tensor 的序列化提供向后兼容性保证；如果其他对象的序列化 pickle 形式发生变化，可能会破坏向后兼容性。

返回值:: 要存储在模块 state_dict 中的任何额外状态
返回类型:: object

property loc¶: 返回一个包含用于仿射变换的 loc 的 TensorDict。

property scale¶: 返回一个包含用于仿射变换的 scale 的 TensorDict。

set_extra_state(state: OrderedDict) → None[source]¶

设置加载的 state_dict 中包含的额外状态。

此函数由 load_state_dict() 调用，用于处理在 state_dict 中找到的任何额外状态。如果您需要在模块的 state_dict 中存储额外状态，请实现此函数及相应的 get_extra_state()。

参数:: state (dict) – 来自 state_dict 的额外状态

property standard_normal¶

给定 loc 和 scale 的仿射变换是否遵循标准正态方程。

类似于 ObservationNorm 的 standard_normal 属性。

始终返回 True。

to_observation_norm() → Union[Compose, ObservationNorm][source]¶

将 VecNorm 转换为可在推理时使用的 ObservationNorm 类。

ObservationNorm 层可以使用 state_dict() API 进行更新。

示例

>>> from torchrl.envs import GymEnv, VecNorm
>>> vecnorm = VecNorm(in_keys=["observation"])
>>> train_env = GymEnv("CartPole-v1", device=None).append_transform(
...     vecnorm)
>>>
>>> r = train_env.rollout(4)
>>>
>>> eval_env = GymEnv("CartPole-v1").append_transform(
...     vecnorm.to_observation_norm())
>>> print(eval_env.transform.loc, eval_env.transform.scale)
>>>
>>> r = train_env.rollout(4)
>>> # Update entries with state_dict
>>> eval_env.transform.load_state_dict(
...     vecnorm.to_observation_norm().state_dict())
>>> print(eval_env.transform.loc, eval_env.transform.scale)

transform_observation_spec(observation_spec: TensorSpec) → TensorSpec[source]¶

转换观测规范，使结果规范与变换映射匹配。

参数:: observation_spec (TensorSpec) – 变换前的规范
返回值:: 变换后预期的规范

unfreeze() → VecNorm[source]¶

解冻 VecNorm。

参见 freeze()。

VecNorm¶

文档

教程

资源