PettingZooWrapper¶
- torchrl.envs.PettingZooWrapper(*args, **kwargs)[源代码]¶
PettingZoo 环境包装器。
要安装 petting zoo,请遵循 此处 <https://github.com/Farama-Foundation/PettingZoo#installation>__ 的指南。
此类是所有 PettingZoo 环境的一般 torchrl 包装器。它能够包装
pettingzoo.AECEnv
和pettingzoo.ParallelEnv
。让我们更详细地了解一下
在包装的
pettingzoo.ParallelEnv
中,所有代理将在每次环境步骤中执行步骤。如果任务期间的代理数量发生变化,请设置use_mask=True
。"mask"
将作为每个组的输出提供,应用于屏蔽掉死亡的代理。环境将在一个代理完成时重置(除非done_on_any
为False
)。在包装的
pettingzoo.AECEnv
中,每次只执行一个代理。出于这个原因,对于这种类型的环境,必须设置use_mask=True
。"mask"
将作为每个组的输出提供,可用于屏蔽掉未执行的代理。环境仅在所有代理都完成时重置(除非done_on_any
为True
)。如果代理有任何不可用的操作,环境也会自动更新其
action_spec
的屏蔽,并为每个组输出一个"action_mask"
以反映最新的可用操作。这应在训练期间传递给屏蔽的分布。作为 torchrl 多智能体的一个特性,您可以控制环境中代理的分组方式。您可以将代理分组在一起(将它们的张量堆叠起来),以便在将它们传递到同一个神经网络时利用矢量化。您可以将代理拆分为不同的组,其中它们是异构的或应由不同的神经网络处理。要进行分组,您只需在环境构建时传递一个
group_map
。默认情况下,pettingzoo 中的代理将按名称分组。例如,对于代理
["agent_0","agent_1","agent_2","adversary_0"]
,tensordicts 将如下所示>>> print(env.rand_action(env.reset())) TensorDict( fields={ agent: TensorDict( fields={ action: Tensor(shape=torch.Size([3, 9]), device=cpu, dtype=torch.int64, is_shared=False), action_mask: Tensor(shape=torch.Size([3, 9]), device=cpu, dtype=torch.bool, is_shared=False), done: Tensor(shape=torch.Size([3, 1]), device=cpu, dtype=torch.bool, is_shared=False), observation: Tensor(shape=torch.Size([3, 3, 3, 2]), device=cpu, dtype=torch.int8, is_shared=False), terminated: Tensor(shape=torch.Size([3, 1]), device=cpu, dtype=torch.bool, is_shared=False), truncated: Tensor(shape=torch.Size([3, 1]), device=cpu, dtype=torch.bool, is_shared=False)}, batch_size=torch.Size([3]))}, adversary: TensorDict( fields={ action: Tensor(shape=torch.Size([1, 9]), device=cpu, dtype=torch.int64, is_shared=False), action_mask: Tensor(shape=torch.Size([1, 9]), device=cpu, dtype=torch.bool, is_shared=False), done: Tensor(shape=torch.Size([1, 1]), device=cpu, dtype=torch.bool, is_shared=False), observation: Tensor(shape=torch.Size([1, 3, 3, 2]), device=cpu, dtype=torch.int8, is_shared=False), terminated: Tensor(shape=torch.Size([1, 1]), device=cpu, dtype=torch.bool, is_shared=False), truncated: Tensor(shape=torch.Size([1, 1]), device=cpu, dtype=torch.bool, is_shared=False)}, batch_size=torch.Size([1]))}, batch_size=torch.Size([])) >>> print(env.group_map) {"agent": ["agent_0", "agent_1", "agent_2"], "adversary": ["adversary_0"]}
否则,可以指定组映射或从一些预制选项中选择。有关更多信息,请参阅
torchrl.envs.utils.MarlGroupMapType
。例如,您可以提供MarlGroupMapType.ONE_GROUP_PER_AGENT
,告诉每个代理都应拥有自己的 tensordict(类似于 pettingzoo 并行 API)。分组对于在数据通过同一个神经网络的代理之间利用矢量化非常有用。
- 参数:
env (
pettingzoo.utils.env.ParallelEnv
或pettingzoo.utils.env.AECEnv
) – 要包装的 pettingzoo 环境。return_state (bool, 可选) – 是否从 pettingzoo 返回全局状态(并非所有环境都提供)。默认为
False
。group_map (MarlGroupMapType 或 Dict[str, List[str]]], 可选) – 如何在 tensordicts 中对输入/输出进行代理分组。默认情况下,代理将按其名称分组。否则,可以指定组映射或从一些预制选项中选择。有关更多信息,请参阅
torchrl.envs.utils.MarlGroupMapType
。use_mask (bool, 可选) – 环境是否应输出一个
"mask"
。这在包装的pettingzoo.AECEnv
中是强制性的,用于屏蔽掉未执行的代理,也应用于pettingzoo.ParallelEnv
,其中代理数量可能有所不同。默认为False
。categorical_actions (bool, 可选) – 如果环境的操作是离散的,则是否将其转换为分类或独热编码。
seed (int, 可选) – 种子。默认为
None
。done_on_any (bool, 可选) – 环境的 done 密钥是否通过使用
any()
(当True
)或all()
(当False
)聚合代理密钥来设置。默认值 (None
) 是对并行环境使用any()
,对 AEC 环境使用all()
。
示例
>>> # Parallel env >>> from torchrl.envs.libs.pettingzoo import PettingZooWrapper >>> from pettingzoo.butterfly import pistonball_v6 >>> kwargs = {"n_pistons": 21, "continuous": True} >>> env = PettingZooWrapper( ... env=pistonball_v6.parallel_env(**kwargs), ... return_state=True, ... group_map=None, # Use default for parallel (all pistons grouped together) ... ) >>> print(env.group_map) ... {'piston': ['piston_0', 'piston_1', ..., 'piston_20']} >>> env.rollout(10) >>> # AEC env >>> from pettingzoo.classic import tictactoe_v3 >>> from torchrl.envs.libs.pettingzoo import PettingZooWrapper >>> from torchrl.envs.utils import MarlGroupMapType >>> env = PettingZooWrapper( ... env=tictactoe_v3.env(), ... use_mask=True, # Must use it since one player plays at a time ... group_map=None # # Use default for AEC (one group per player) ... ) >>> print(env.group_map) ... {'player_1': ['player_1'], 'player_2': ['player_2']} >>> env.rollout(10)