快捷方式

LossModule

class torchrl.objectives.LossModule(*args, **kwargs)[source]

RL 损失的父类。

LossModule 继承自 nn.Module。它旨在读取输入 TensorDict 并返回另一个 tensordict,其中损失键名为 "loss_*"

将损失分成其组件后,训练器可以使用它在整个训练过程中记录各种损失值。输出 tensordict 中存在的其他标量也将被记录。

变量:

default_value_estimator – 类的默认值类型。需要值估计的损失配备默认值指针。此类属性指示如果未指定其他值估计器,将使用哪个值估计器。可以使用 make_value_estimator() 方法更改值估计器。

默认情况下,forward 方法始终使用 gh torchrl.envs.ExplorationType.MEAN 装饰。

要利用通过 set_keys() 配置 tensordict 键的能力,子类必须定义一个 _AcceptedKeys 数据类。此数据类应包含所有打算配置的键。此外,子类必须实现 :meth:._forward_value_estimator_keys() 方法。此函数对于将任何更改的 tensordict 键转发到底层 value_estimator 至关重要。

示例

>>> class MyLoss(LossModule):
>>>     @dataclass
>>>     class _AcceptedKeys:
>>>         action = "action"
>>>
>>>     def _forward_value_estimator_keys(self, **kwargs) -> None:
>>>         pass
>>>
>>> loss = MyLoss()
>>> loss.set_keys(action="action2")

注意

当将包装或通过探索模块增强的策略传递给损失时,我们希望通过 set_exploration_mode(<mode>) 禁用探索,其中 <mode>ExplorationType.MEANExplorationType.MODEExplorationType.DETERMINISTIC。默认值为 DETERMINISTIC,它是通过 deterministic_sampling_mode 损失属性设置的。如果需要其他探索模式(或 DETERMINISTIC 不可用),则可以更改此属性的值,这将更改模式。

convert_to_functional(module: TensorDictModule, module_name: str, expand_dim: Optional[int] = None, create_target_params: bool = False, compare_against: Optional[List[Parameter]] = None, **kwargs) None[source]

将模块转换为函数,以便在损失中使用。

参数:
  • module (TensorDictModulecompatible) – 有状态 tensordict 模块。此模块的参数将被隔离在 <module_name>_params 属性中,并将注册模块的无状态版本在 module_name 属性下。

  • module_name (str) – 模块将在其中找到的名称。模块的参数将在 loss_module.<module_name>_params 下找到,而模块将在 loss_module.<module_name> 下找到。

  • expand_dim (int, 可选) –

    如果提供,模块的参数

    将扩展 N 次,其中 N = expand_dim 沿着第一维。此选项用于在使用具有多个配置的目标网络时使用。

    注意

    如果提供了 compare_against 值列表,则生成的参数将只是原始参数的独立扩展。如果未提供 compare_against,则参数的值将在参数内容的最小值和最大值之间均匀重新采样。

    create_target_params (bool, 可选): 如果 True,则参数的独立

    副本将可用以在 loss_module.<module_name>_target_params 下的名称下提供目标网络。如果 False(默认),则此属性仍将可用,但它将是参数的独立实例,而不是副本。换句话说,对参数值的任何修改将直接反映在目标参数中。

  • compare_against (参数可迭代对象, 可选) – 如果提供,此参数列表将用作模块参数的比较集。如果参数被扩展(expand_dim > 0),则模块的最终参数将是对原始参数的简单扩展。否则,最终参数将是原始参数的独立版本。如果为 None,最终参数将按预期携带梯度。

forward(tensordict: TensorDictBase) TensorDictBase[source]

它被设计为读取一个输入 TensorDict,并返回另一个包含名为“loss*”的损失键的 tensordict。

将损失分成其组件后,训练器可以使用它在整个训练过程中记录各种损失值。输出 tensordict 中存在的其他标量也将被记录。

参数:

tensordict – 一个输入 tensordict,包含计算损失所需的数值。

返回值:

一个不包含批次维度的新的 tensordict,其中包含各种名为“loss*”的损失标量。这些损失必须以这个名称返回,因为它们将在反向传播之前被训练器读取。

from_stateful_net(network_name: str, stateful_net: Module)[source]

根据网络的有状态版本填充模型的参数。

有关如何收集网络的有状态版本的详细信息,请参见 get_stateful_net()

参数:
  • network_name (str) – 要重置的网络名称。

  • stateful_net (nn.Module) – 要从中收集参数的有状态网络。

property functional

模块是否为函数式。

除非专门设计为非函数式,否则所有损失都是函数式的。

get_stateful_net(network_name: str, copy: bool | None = None)[source]

返回网络的有状态版本。

这可用于初始化参数。

此类网络通常无法直接调用,需要进行 vmap 调用才能执行。

参数:
  • network_name (str) – 要收集的网络名称。

  • copy (bool, 可选) –

    如果为 True,则会创建网络的深度副本。默认值为 True

    注意

    如果模块不是函数式的,则不会进行复制。

make_value_estimator(value_type: Optional[ValueEstimators] = None, **hyperparams)[source]

值函数构造器。

如果需要非默认值函数,则必须使用此方法构建。

参数:
  • value_type (ValueEstimators) – 一个 ValueEstimators 枚举类型,指示要使用的值函数。如果未提供,将使用 default_value_estimator 属性中存储的默认值。生成的估值器类将在 self.value_type 中注册,允许将来进行细化。

  • **hyperparams – 用于值函数的超参数。如果未提供,将使用 default_value_kwargs() 指示的值。

示例

>>> from torchrl.objectives import DQNLoss
>>> # initialize the DQN loss
>>> actor = torch.nn.Linear(3, 4)
>>> dqn_loss = DQNLoss(actor, action_space="one-hot")
>>> # updating the parameters of the default value estimator
>>> dqn_loss.make_value_estimator(gamma=0.9)
>>> dqn_loss.make_value_estimator(
...     ValueEstimators.TD1,
...     gamma=0.9)
>>> # if we want to change the gamma value
>>> dqn_loss.make_value_estimator(dqn_loss.value_type, gamma=0.9)
named_parameters(prefix: str = '', recurse: bool = True) Iterator[Tuple[str, Parameter]][source]

返回模块参数的迭代器,同时生成参数的名称和参数本身。

参数:
  • prefix (str) – 要附加到所有参数名称的前缀。

  • recurse (bool) – 如果为 True,则生成此模块和所有子模块的参数。否则,只生成此模块的直接成员的参数。

  • remove_duplicate (bool, 可选) – 是否从结果中删除重复的参数。默认值为 True。

生成:

(str, Parameter) – 包含名称和参数的元组

示例

>>> # xdoctest: +SKIP("undefined vars")
>>> for name, param in self.named_parameters():
>>>     if name in ['bias']:
>>>         print(param.size())
parameters(recurse: bool = True) Iterator[Parameter][source]

返回模块参数的迭代器。

这通常传递给优化器。

参数:

recurse (bool) – 如果为 True,则生成此模块和所有子模块的参数。否则,只生成此模块的直接成员的参数。

生成:

Parameter – 模块参数

示例

>>> # xdoctest: +SKIP("undefined vars")
>>> for param in model.parameters():
>>>     print(type(param), param.size())
<class 'torch.Tensor'> (20L,)
<class 'torch.Tensor'> (20L, 1L, 5L, 5L)
set_keys(**kwargs) None[source]

设置 tensordict 键名称。

示例

>>> from torchrl.objectives import DQNLoss
>>> # initialize the DQN loss
>>> actor = torch.nn.Linear(3, 4)
>>> dqn_loss = DQNLoss(actor, action_space="one-hot")
>>> dqn_loss.set_keys(priority_key="td_error", action_value_key="action_value")
property value_estimator: ValueEstimatorBase

值函数将来自后续状态/状态-动作对的奖励和值估计融合成值网络的目标值估计。

property vmap_randomness

Vmap 随机模式。

vmap 随机模式控制 vmap() 在处理具有随机结果的函数(如 randn()rand())时应执行的操作。如果为 “error”,任何随机函数都会引发异常,表明 vmap 不知道如何处理随机调用。

如果为 “different”,则调用 vmap 的批次中的每个元素的行为将有所不同。如果为 “same”,则 vmap 将在所有元素之间复制相同的结果。

如果未检测到随机模块,则 vmap_randomness 默认值为 “error”,在其他情况下则默认为 “different”。默认情况下,只有有限数量的模块被列为随机模块,但可以使用 add_random_module() 函数扩展此列表。

此属性支持设置其值。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得您的问题的解答

查看资源