LossModule¶
- class torchrl.objectives.LossModule(*args, **kwargs)[source]¶
RL 损失函数的父类。
LossModule 继承自 nn.Module。它被设计为读取输入 TensorDict 并返回另一个包含名为
"loss_*"
的损失键的 tensordict。将损失分解为组件后,训练器可以使用它来记录整个训练过程中的各种损失值。输出 tensordict 中存在的其他标量也将被记录。
- 变量:
default_value_estimator – 类的默认值类型。需要值估计的损失函数配备了默认值指针。此类属性指示在未指定其他值估计器的情况下将使用哪个值估计器。可以使用
make_value_estimator()
方法更改值估计器。
默认情况下,forward 方法始终使用 gh
torchrl.envs.ExplorationType.MEAN
进行装饰为了利用通过
set_keys()
配置 tensordict 键的能力,子类必须定义 _AcceptedKeys 数据类。此数据类应包含所有旨在可配置的键。此外,子类必须实现 :meth:._forward_value_estimator_keys() 方法。此函数对于将任何更改后的 tensordict 键转发到底层 value_estimator 至关重要。示例
>>> class MyLoss(LossModule): >>> @dataclass >>> class _AcceptedKeys: >>> action = "action" >>> >>> def _forward_value_estimator_keys(self, **kwargs) -> None: >>> pass >>> >>> loss = MyLoss() >>> loss.set_keys(action="action2")
注意
当将使用探索模块包装或增强的策略传递给损失函数时,我们希望通过
set_exploration_type(<exploration>)
停用探索,其中<exploration>
是ExplorationType.MEAN
,ExplorationType.MODE
或ExplorationType.DETERMINISTIC
。默认值为DETERMINISTIC
,并通过deterministic_sampling_mode
损失属性设置。如果需要另一种探索模式(或者如果DETERMINISTIC
不可用),可以更改此属性的值,这将更改模式。- convert_to_functional(module: TensorDictModule, module_name: str, expand_dim: Optional[int] = None, create_target_params: bool = False, compare_against: Optional[List[Parameter]] = None, **kwargs) None [source]¶
将模块转换为函数式以在损失函数中使用。
- 参数:
module (TensorDictModule 或 兼容模块) – 一个有状态的 tensordict 模块。来自此模块的参数将被隔离在 <module_name>_params 属性中,并且模块的无状态版本将在 module_name 属性下注册。
module_name (str) – 模块将被找到的名称。模块的参数将在
loss_module.<module_name>_params
下找到,而模块将在loss_module.<module_name>
下找到。expand_dim (int, 可选) –
- 如果提供,模块的参数
将扩展
N
倍,其中N = expand_dim
沿着第一个维度。每当要使用具有多个配置的目标网络时,都应使用此选项。注意
如果提供了
compare_against
值列表,则生成的参数将只是原始参数的解耦扩展。如果未提供compare_against
,则参数的值将在参数内容的最小值和最大值之间均匀重新采样。- create_target_params (bool, optional): 如果
True
,则分离的 参数副本将可用于在名称
loss_module.<module_name>_target_params
下馈送目标网络。如果False
(默认),此属性仍然可用,但它将是参数的分离实例,而不是副本。换句话说,对参数值的任何修改都将直接反映在目标参数中。
compare_against (参数的可迭代对象, 可选) – 如果提供,则此参数列表将用作模块参数的比较集。如果参数已扩展 (
expand_dim > 0
),则模块的生成参数将是原始参数的简单扩展。否则,生成的参数将是原始参数的分离版本。如果为None
,则生成的参数将按预期携带梯度。
- forward(tensordict: TensorDictBase) TensorDictBase [source]¶
它被设计为读取输入 TensorDict 并返回另一个包含名为 “loss*” 的损失键的 tensordict。
将损失分解为组件后,训练器可以使用它来记录整个训练过程中的各种损失值。输出 tensordict 中存在的其他标量也将被记录。
- 参数:
tensordict – 一个输入 tensordict,其中包含计算损失所需的值。
- 返回:
一个新的 tensordict,没有批次维度,包含各种损失标量,这些标量将命名为 “loss*”。损失必须以此名称返回,这一点至关重要,因为它们将在反向传播之前被训练器读取。
- from_stateful_net(network_name: str, stateful_net: Module)[source]¶
根据网络的有状态版本填充模型的参数。
有关如何收集网络的有状态版本的详细信息,请参阅
get_stateful_net()
。- 参数:
network_name (str) – 要重置的网络名称。
stateful_net (nn.Module) – 应该从中收集参数的有状态网络。
- property functional¶
模块是否为函数式。
除非专门设计为非函数式,否则所有损失函数都是函数式的。
- get_stateful_net(network_name: str, copy: Optional[bool] = None)[source]¶
返回网络的有状态版本。
这可以用于初始化参数。
此类网络通常无法直接调用,并且需要 vmap 调用才能执行。
- 参数:
network_name (str) – 要收集的网络名称。
copy (bool, 可选) –
如果
True
,则会创建网络的深层副本。默认为True
。注意
如果模块不是函数式的,则不会创建副本。
- make_value_estimator(value_type: Optional[ValueEstimators] = None, **hyperparams)[source]¶
值函数构造器。
如果需要非默认值函数,则必须使用此方法构建它。
- 参数:
value_type (ValueEstimators) – 一个
ValueEstimators
枚举类型,指示要使用的值函数。如果未提供,将使用存储在default_value_estimator
属性中的默认值。生成的值估计器类将在self.value_type
中注册,从而允许未来的改进。**hyperparams – 用于值函数的超参数。如果未提供,将使用
default_value_kwargs()
指示的值。
示例
>>> from torchrl.objectives import DQNLoss >>> # initialize the DQN loss >>> actor = torch.nn.Linear(3, 4) >>> dqn_loss = DQNLoss(actor, action_space="one-hot") >>> # updating the parameters of the default value estimator >>> dqn_loss.make_value_estimator(gamma=0.9) >>> dqn_loss.make_value_estimator( ... ValueEstimators.TD1, ... gamma=0.9) >>> # if we want to change the gamma value >>> dqn_loss.make_value_estimator(dqn_loss.value_type, gamma=0.9)
- named_parameters(prefix: str = '', recurse: bool = True) Iterator[Tuple[str, Parameter]] [source]¶
返回模块参数的迭代器,同时产生参数的名称和参数本身。
- 参数:
prefix (str) – 要添加到所有参数名称的前缀。
recurse (bool) – 如果为 True,则生成此模块和所有子模块的参数。否则,仅生成作为此模块直接成员的参数。
remove_duplicate (bool, 可选) – 是否删除结果中重复的参数。默认为 True。
- 产生:
(str, Parameter) – 包含名称和参数的元组
示例
>>> # xdoctest: +SKIP("undefined vars") >>> for name, param in self.named_parameters(): >>> if name in ['bias']: >>> print(param.size())
- parameters(recurse: bool = True) Iterator[Parameter] [source]¶
返回模块参数的迭代器。
这通常传递给优化器。
- 参数:
recurse (bool) – 如果为 True,则生成此模块和所有子模块的参数。否则,仅生成作为此模块直接成员的参数。
- 产生:
Parameter – 模块参数
示例
>>> # xdoctest: +SKIP("undefined vars") >>> for param in model.parameters(): >>> print(type(param), param.size()) <class 'torch.Tensor'> (20L,) <class 'torch.Tensor'> (20L, 1L, 5L, 5L)
- set_keys(**kwargs) None [source]¶
设置 tensordict 键名称。
示例
>>> from torchrl.objectives import DQNLoss >>> # initialize the DQN loss >>> actor = torch.nn.Linear(3, 4) >>> dqn_loss = DQNLoss(actor, action_space="one-hot") >>> dqn_loss.set_keys(priority_key="td_error", action_value_key="action_value")
- property value_estimator: ValueEstimatorBase¶
值函数将来自即将到来的状态/状态-动作对的奖励和值估计混合到值网络的目标值估计中。
- property vmap_randomness¶
Vmap 随机模式。
vmap 随机模式控制当处理具有随机结果的函数(例如
randn()
和rand()
)时,vmap()
应该如何处理。如果为 “error”,则任何随机函数都会引发异常,指示 vmap 不知道如何处理随机调用。如果为 “different”,则沿 vmap 被调用的批次的每个元素将表现不同。如果为 “same”,则 vmap 将在所有元素之间复制相同的结果。
如果没有检测到随机模块,
vmap_randomness
默认为 “error”,否则默认为 “different”。默认情况下,只有有限数量的模块被列为随机模块,但可以使用add_random_module()
函数扩展列表。此属性支持设置其值。