ActorValueOperator¶

class torchrl.modules.tensordict_module.ActorValueOperator(*args, **kwargs)[source]¶

Actor-value 运算符。

此类将共享相同观测嵌入网络的 actor 和 value 模型包装在一起

../../_images/aafig-2229301c32d3e27b4cec9be5284f11e681ba0607.svg

注意

对于返回动作和质量值 \(Q(s, a)\) 的类似类，请参阅 ActorCriticOperator。对于没有公共嵌入的版本，请参阅 ActorCriticWrapper。

为简化工作流程，此类提供了 get_policy_operator() 和 get_value_operator() 方法，它们都将返回具有专用功能的独立 TDModule。

参数：

common_operator (TensorDictModule) – 读取观测值并生成隐藏变量的公共运算符
policy_operator (TensorDictModule) – 读取隐藏变量并返回动作的策略运算符
value_operator (TensorDictModule) – 读取隐藏变量并返回 value 的 value 运算符

示例

>>> import torch
>>> from tensordict import TensorDict
>>> from torchrl.modules import ProbabilisticActor, SafeModule
>>> from torchrl.modules import ValueOperator, TanhNormal, ActorValueOperator, NormalParamExtractor
>>> module_hidden = torch.nn.Linear(4, 4)
>>> td_module_hidden = SafeModule(
...    module=module_hidden,
...    in_keys=["observation"],
...    out_keys=["hidden"],
...    )
>>> module_action = TensorDictModule(
...     nn.Sequential(torch.nn.Linear(4, 8), NormalParamExtractor()),
...     in_keys=["hidden"],
...     out_keys=["loc", "scale"],
...     )
>>> td_module_action = ProbabilisticActor(
...    module=module_action,
...    in_keys=["loc", "scale"],
...    out_keys=["action"],
...    distribution_class=TanhNormal,
...    return_log_prob=True,
...    )
>>> module_value = torch.nn.Linear(4, 1)
>>> td_module_value = ValueOperator(
...    module=module_value,
...    in_keys=["hidden"],
...    )
>>> td_module = ActorValueOperator(td_module_hidden, td_module_action, td_module_value)
>>> td = TensorDict({"observation": torch.randn(3, 4)}, [3,])
>>> td_clone = td_module(td.clone())
>>> print(td_clone)
TensorDict(
    fields={
        action: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        hidden: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        loc: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        observation: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        sample_log_prob: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False),
        scale: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        state_value: Tensor(shape=torch.Size([3, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([3]),
    device=None,
    is_shared=False)
>>> td_clone = td_module.get_policy_operator()(td.clone())
>>> print(td_clone)  # no value
TensorDict(
    fields={
        action: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        hidden: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        loc: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        observation: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        sample_log_prob: Tensor(shape=torch.Size([3]), device=cpu, dtype=torch.float32, is_shared=False),
        scale: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([3]),
    device=None,
    is_shared=False)
>>> td_clone = td_module.get_value_operator()(td.clone())
>>> print(td_clone)  # no action
TensorDict(
    fields={
        hidden: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        observation: Tensor(shape=torch.Size([3, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        state_value: Tensor(shape=torch.Size([3, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([3]),
    device=None,
    is_shared=False)

get_policy_head() → SafeSequential[source]¶: 返回策略头部。

get_policy_operator() → SafeSequential[source]¶: 返回一个独立的策略运算符，将观测值映射到动作。

get_value_head() → SafeSequential[source]¶: 返回值头部。

get_value_operator() → SafeSequential[source]¶: 返回一个独立的价值网络运算符，将观测值映射到价值估计。

ActorValueOperator¶

文档

教程

资源