快捷方式

ConsistentDropout

class torchrl.modules.ConsistentDropout(p: float = 0.5)[source]

实现具有一致性 dropout 的 Dropout 变体。

该方法在 “Consistent Dropout for Policy Gradient Reinforcement Learning” (Hausknecht & Wagener, 2022) 中提出。

Dropout 变体通过缓存 rollout 期间使用的 dropout 掩码并在更新阶段重用它们,试图增加训练稳定性并减少更新方差。

您正在查看的此类独立于 TorchRL API 的其余部分,并且不需要 tensordict 即可运行。ConsistentDropoutModuleConsistentDropout 的一个包装器,它利用 TensorDict 的可扩展性,将生成的 dropout 掩码存储在 transition TensorDict 本身中。有关详细说明和使用示例,请参阅此类。

除此之外,与 PyTorch Dropout 实现相比,概念上没有太大偏差。

..注意:: TorchRL 的数据收集器在 no_grad() 模式下执行 rollout,但不在 eval 模式下执行,

因此除非传递给收集器的策略处于 eval 模式,否则 dropout 掩码将被应用。

注意

与其他探索模块不同,ConsistentDropoutModule 使用 train/eval 模式以符合 PyTorch 中常规的 Dropout API。set_exploration_type() 上下文管理器对此模块无效。

参数:

p (float, 可选) – Dropout 概率。默认为 0.5

另请参阅

forward(x: torch.Tensor, mask: torch.Tensor | None = None) torch.Tensor[source]

在训练期间 (rollout & 更新),此调用在与输入张量相乘之前,会屏蔽一个全为 1 的张量。

在评估期间,此调用结果为无操作,仅返回输入。

参数:

返回:在训练模式下返回一个张量和对应的掩码,在评估模式下仅返回一个张量。

文档

查阅 PyTorch 全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源