快捷方式

DreamerValueLoss

class torchrl.objectives.DreamerValueLoss(*args, **kwargs)[source]

Dreamer 价值损失。

计算 dreamer 价值模型的损失。价值损失在预测价值和 lambda 目标之间计算。

参考:https://arxiv.org/abs/1912.01603

参数:
  • value_model (TensorDictModule) – 价值模型。

  • value_loss (str, optional) – 用于价值损失的损失函数。默认值: "l2"

  • discount_loss (bool, optional) – 如果为 True,则损失会以 gamma 折扣因子进行折扣。默认值:False。

  • gamma (float, optional) – gamma 折扣因子。默认值: 0.99

forward(fake_data) Tensor[source]

它旨在读取一个 TensorDict 输入并返回另一个包含名为 “loss*” 的损失键的 tensordict。

将损失分解为其组成部分,然后可以被训练器用来记录整个训练过程中的各种损失值。输出 tensordict 中存在的其他标量也将被记录。

参数:

tensordict – 一个输入 tensordict,包含计算损失所需的值。

返回值:

一个新的 tensordict,没有批次维度,包含各种损失标量,这些标量将被命名为 “loss*”。至关重要的是,损失以这个名称返回,因为训练器会在反向传播之前读取它们。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源