快捷方式

PettingZooWrapper

torchrl.envs.PettingZooWrapper(*args, **kwargs)[source]

PettingZoo 环境包装器。

要安装 petting zoo,请遵循此处的指南 <https://github.com/Farama-Foundation/PettingZoo#installation>__

此类是所有 PettingZoo 环境的通用 torchrl 包装器。它能够包装 pettingzoo.AECEnvpettingzoo.ParallelEnv

让我们更详细地了解一下

在包装的 pettingzoo.ParallelEnv 中,所有智能体将在每个环境步骤中执行步骤。如果任务期间智能体的数量发生变化,请设置 use_mask=True"mask" 将在每个组中作为输出提供,并且应该用于屏蔽掉死亡的智能体。只要有一个智能体完成,环境就会重置(除非 done_on_anyFalse)。

在包装的 pettingzoo.AECEnv 中,在每个步骤中只有一个智能体将执行动作。因此,对于这种类型的环境,必须设置 use_mask=True"mask" 将为每个组提供作为输出,并且可以用于屏蔽掉非活动智能体。仅当所有智能体都完成时,环境才会重置(除非 done_on_anyTrue)。

如果某个智能体有任何不可用的动作,环境也会自动更新其 action_spec 的掩码,并为每个组输出一个 "action_mask" 以反映最新的可用动作。这应该在训练期间传递给 masked distribution。

作为 torchrl 多智能体的一个特性,您可以控制环境中智能体的分组。您可以将智能体分组在一起(堆叠它们的张量),以便在通过相同的神经网络时利用向量化。您可以将智能体分成不同的组,在这些组中,它们是异构的或者应该由不同的神经网络处理。要分组,您只需在环境构建时传递一个 group_map

默认情况下,pettingzoo 中的智能体将按名称分组。例如,对于智能体 ["agent_0","agent_1","agent_2","adversary_0"],张量字典将如下所示

>>> print(env.rand_action(env.reset()))
TensorDict(
    fields={
        agent: TensorDict(
            fields={
                action: Tensor(shape=torch.Size([3, 9]), device=cpu, dtype=torch.int64, is_shared=False),
                action_mask: Tensor(shape=torch.Size([3, 9]), device=cpu, dtype=torch.bool, is_shared=False),
                done: Tensor(shape=torch.Size([3, 1]), device=cpu, dtype=torch.bool, is_shared=False),
                observation: Tensor(shape=torch.Size([3, 3, 3, 2]), device=cpu, dtype=torch.int8, is_shared=False),
                terminated: Tensor(shape=torch.Size([3, 1]), device=cpu, dtype=torch.bool, is_shared=False),
                truncated: Tensor(shape=torch.Size([3, 1]), device=cpu, dtype=torch.bool, is_shared=False)},
            batch_size=torch.Size([3]))},
        adversary: TensorDict(
            fields={
                action: Tensor(shape=torch.Size([1, 9]), device=cpu, dtype=torch.int64, is_shared=False),
                action_mask: Tensor(shape=torch.Size([1, 9]), device=cpu, dtype=torch.bool, is_shared=False),
                done: Tensor(shape=torch.Size([1, 1]), device=cpu, dtype=torch.bool, is_shared=False),
                observation: Tensor(shape=torch.Size([1, 3, 3, 2]), device=cpu, dtype=torch.int8, is_shared=False),
                terminated: Tensor(shape=torch.Size([1, 1]), device=cpu, dtype=torch.bool, is_shared=False),
                truncated: Tensor(shape=torch.Size([1, 1]), device=cpu, dtype=torch.bool, is_shared=False)},
            batch_size=torch.Size([1]))},
    batch_size=torch.Size([]))
>>> print(env.group_map)
{"agent": ["agent_0", "agent_1", "agent_2"], "adversary": ["adversary_0"]}

否则,可以指定或从一些预制选项中选择组映射。有关更多信息,请参阅 torchrl.envs.utils.MarlGroupMapType。例如,您可以提供 MarlGroupMapType.ONE_GROUP_PER_AGENT,表示每个智能体都应该有自己的张量字典(类似于 pettingzoo 并行 API)。

分组对于在数据通过相同神经网络的智能体之间利用向量化非常有用。

参数:
  • env (pettingzoo.utils.env.ParallelEnvpettingzoo.utils.env.AECEnv) – 要包装的 pettingzoo 环境。

  • return_state (bool, 可选) – 是否从 pettingzoo 返回全局状态(并非在所有环境中都可用)。默认为 False

  • group_map (MarlGroupMapTypeDict[str, List[str]]], 可选) – 如何在张量字典中对智能体进行分组以进行输入/输出。默认情况下,智能体将按其名称分组。否则,可以指定或从一些预制选项中选择组映射。有关更多信息,请参阅 torchrl.envs.utils.MarlGroupMapType

  • use_mask (bool, 可选) – 环境是否应该输出一个 "mask"。这在包装的 pettingzoo.AECEnv 中是强制性的,用于屏蔽掉非活动智能体,并且也应该在智能体数量可能变化时用于 pettingzoo.ParallelEnv。默认为 False

  • categorical_actions (bool, 可选) – 如果环境动作是离散的,是否将它们转换为 categorical 或 one-hot。

  • seed (int, 可选) – 种子。默认为 None

  • done_on_any (bool, 可选) – 环境的 done 键是否通过使用 any() (当 True 时)或 all() (当 False 时)聚合智能体键来设置。默认值 (None) 是对并行环境使用 any(),对 AEC 环境使用 all()

示例

>>> # Parallel env
>>> from torchrl.envs.libs.pettingzoo import PettingZooWrapper
>>> from pettingzoo.butterfly import pistonball_v6
>>> kwargs = {"n_pistons": 21, "continuous": True}
>>> env = PettingZooWrapper(
...     env=pistonball_v6.parallel_env(**kwargs),
...     return_state=True,
...     group_map=None, # Use default for parallel (all pistons grouped together)
... )
>>> print(env.group_map)
... {'piston': ['piston_0', 'piston_1', ..., 'piston_20']}
>>> env.rollout(10)
>>> # AEC env
>>> from pettingzoo.classic import tictactoe_v3
>>> from torchrl.envs.libs.pettingzoo import PettingZooWrapper
>>> from torchrl.envs.utils import MarlGroupMapType
>>> env = PettingZooWrapper(
...     env=tictactoe_v3.env(),
...     use_mask=True, # Must use it since one player plays at a time
...     group_map=None # # Use default for AEC (one group per player)
... )
>>> print(env.group_map)
... {'player_1': ['player_1'], 'player_2': ['player_2']}
>>> env.rollout(10)

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得您的问题解答

查看资源