• 文档 >
  • 多智能体强化学习(PPO)与 TorchRL 教程
快捷键

使用 TorchRL 教程进行多智能体强化学习(PPO)

作者: Matteo Bettini

另请参阅

The BenchMARL 库提供了使用 TorchRL 的 MARL 算法的最新实现。

本教程演示了如何使用 PyTorch 和 torchrl 来解决多智能体强化学习 (MARL) 问题。

为了便于使用,本教程将遵循已在以下位置提供的通用结构:使用 TorchRL 教程进行强化学习(PPO)。建议但在开始本教程之前熟悉它不是必须的。

在本教程中,我们将使用来自 VMAS 的 *Navigation* 环境,这是一个多机器人模拟器,也基于 PyTorch,它在设备上运行并行批处理模拟。

在 *Navigation* 环境中,我们需要训练多个机器人(在随机位置生成)以导航到他们的目标(也在随机位置),同时使用 LIDAR 传感器 来避免彼此之间的碰撞。

Navigation

多智能体 *Navigation* 场景

关键学习内容

  • 如何在 TorchRL 中创建多智能体环境,其规范如何工作以及它如何与库集成;

  • 如何在 TorchRL 中使用 GPU 矢量化环境;

  • 如何在 TorchRL 中创建不同的多智能体网络架构(例如,使用参数共享、集中式 critic)

  • 我们如何使用 tensordict.TensorDict 来承载多智能体数据;

  • 我们如何将所有库组件(收集器、模块、回放缓冲区和损失)绑定在多智能体 MAPPO/IPPO 训练循环中。

如果您在 Google Colab 中运行此程序,请确保安装以下依赖项

!pip3 install torchrl
!pip3 install vmas
!pip3 install tqdm

近端策略优化 (PPO) 是一种策略梯度算法,其中收集一批数据并直接使用它来训练策略,以最大限度地提高在某些接近性约束条件下给定预期回报的策略。您可以将其视为 REINFORCE(基础策略优化算法)的复杂版本。有关更多信息,请参阅 近端策略优化算法 论文。

这种类型的算法通常以on-policy 方式训练。这意味着,在每次学习迭代中,我们都有一个采样阶段和一个训练阶段。在迭代 \(t\)采样阶段,使用当前策略 \(\mathbf{\pi}_t\) 从代理与环境的交互中收集回滚。在训练阶段,所有收集到的回滚立即被馈送到训练过程以执行反向传播。这将导致更新的策略,这些策略随后将再次用于采样。在循环中执行此过程构成了on-policy 学习

On-policy learning

On-policy 学习

在 PPO 算法的训练阶段,一个critic 用于估计策略所采取的行动的优劣。critic 学习逼近特定状态的值(平均折现回报)。然后,PPO 损失将策略获得的实际回报与 critic 估计的回报进行比较,以确定采取的行动的优势并指导策略优化。

在多智能体环境中,事情有点不同。我们现在有多个策略 \(\mathbf{\pi}\),每个代理一个。策略通常是本地的和分散的。这意味着单个代理的策略将仅根据其观察结果输出该代理的行动。在 MARL 文献中,这被称为分散执行。另一方面,critic 存在不同的公式,主要有

  • MAPPO 中,critic 是集中的,并以系统的全局状态作为输入。这可以是全局观察结果,也可以是代理观察结果的简单串联。MAPPO 可用于执行集中式训练的上下文,因为它需要访问全局信息。

  • IPPO 中,critic 以各自代理的观察结果作为输入,与策略完全相同。这允许分散训练,因为 critic 和策略都只需要本地信息来计算其输出。

集中式 critic 有助于克服多个代理同时学习的非平稳性,但另一方面,它们可能会受到其大型输入空间的影响。在本教程中,我们将能够训练这两种公式,我们还将讨论参数共享(跨代理共享网络参数的做法)如何影响每种公式。

本教程的结构如下

  1. 首先,我们将定义一组我们将使用的超参数。

  2. 接下来,我们将使用 TorchRL 的 VMAS 模拟器包装器创建矢量化多智能体环境。

  3. 接下来,我们将设计策略和 critic 网络,讨论各种选择对参数共享和 critic 集中化的影响。

  4. 接下来,我们将创建采样收集器和回放缓冲区。

  5. 最后,我们将运行我们的训练循环并分析结果。

如果您在 Colab 或具有 GUI 的机器上运行此程序,您还可以选择在训练之前和之后渲染和可视化您自己的训练后的策略。

让我们导入我们的依赖项

# Torch
import torch

# Tensordict modules
from tensordict.nn import TensorDictModule
from tensordict.nn.distributions import NormalParamExtractor
from torch import multiprocessing

# Data collection
from torchrl.collectors import SyncDataCollector
from torchrl.data.replay_buffers import ReplayBuffer
from torchrl.data.replay_buffers.samplers import SamplerWithoutReplacement
from torchrl.data.replay_buffers.storages import LazyTensorStorage

# Env
from torchrl.envs import RewardSum, TransformedEnv
from torchrl.envs.libs.vmas import VmasEnv
from torchrl.envs.utils import check_env_specs

# Multi-agent network
from torchrl.modules import MultiAgentMLP, ProbabilisticActor, TanhNormal

# Loss
from torchrl.objectives import ClipPPOLoss, ValueEstimators

# Utils
torch.manual_seed(0)
from matplotlib import pyplot as plt
from tqdm import tqdm

定义超参数

我们为本教程设置超参数。根据可用资源,可以选择在 GPU 或其他设备上执行策略和模拟器。您可以调整这些值中的某些值以调整计算需求。

# Devices
is_fork = multiprocessing.get_start_method() == "fork"
device = (
    torch.device(0)
    if torch.cuda.is_available() and not is_fork
    else torch.device("cpu")
)
vmas_device = device  # The device where the simulator is run (VMAS can run on GPU)

# Sampling
frames_per_batch = 6_000  # Number of team frames collected per training iteration
n_iters = 10  # Number of sampling and training iterations
total_frames = frames_per_batch * n_iters

# Training
num_epochs = 30  # Number of optimization steps per training iteration
minibatch_size = 400  # Size of the mini-batches in each optimization step
lr = 3e-4  # Learning rate
max_grad_norm = 1.0  # Maximum norm for the gradients

# PPO
clip_epsilon = 0.2  # clip value for PPO loss
gamma = 0.99  # discount factor
lmbda = 0.9  # lambda for generalised advantage estimation
entropy_eps = 1e-4  # coefficient of the entropy term in the PPO loss

环境

多智能体环境模拟多个代理与世界交互。TorchRL API 允许集成各种类型的多智能体环境风格。一些示例包括具有共享或单个代理奖励、完成标志和观察结果的环境。有关 TorchRL 中的多智能体环境 API 如何工作,您可以查看专门的 文档部分

特别是,VMAS 模拟器对具有单个奖励、信息、观察结果和行动的代理进行建模,但具有集体完成标志。此外,它使用矢量化以批处理方式执行模拟。这意味着它的所有状态和物理都是具有第一个维度表示批处理中并行环境数量的 PyTorch 张量。这允许利用 GPU 的单指令多数据 (SIMD) 范式,并通过利用 GPU 线程组中的并行化来显著加快并行计算速度。这也意味着,在 TorchRL 中使用它时,模拟和训练都可以运行在设备上,而无需将数据传递到 CPU。

我们今天要解决的多智能体任务是导航(参见上面的动画图)。在导航中,随机生成的智能体(带有周围点的圆圈)需要导航到随机生成的目的地(较小的圆圈)。智能体需要使用激光雷达(它们周围的点)来避免相互碰撞。智能体在一个具有拖动和弹性碰撞的二维连续世界中行动。它们的行动是决定其加速度的二维连续力。奖励由三个部分组成:碰撞惩罚、基于到目的地的距离的奖励以及所有智能体都到达目的地时给出的最终共享奖励。基于距离的项计算为智能体与其目标之间的相对距离在两个连续时间步长上的差异。每个智能体观察自己的位置、速度、激光雷达读数以及与其目标的相对位置。

现在我们将实例化环境。在本教程中,我们将把情节限制在 max_steps,之后将设置完成标志。此功能已在 VMAS 模拟器中提供,但也可以使用 TorchRL StepCount 转换。我们还将使用 num_vmas_envs 向量化环境来利用批量模拟。

max_steps = 100  # Episode steps before done
num_vmas_envs = (
    frames_per_batch // max_steps
)  # Number of vectorized envs. frames_per_batch should be divisible by this number
scenario_name = "navigation"
n_agents = 3

env = VmasEnv(
    scenario=scenario_name,
    num_envs=num_vmas_envs,
    continuous_actions=True,  # VMAS supports both continuous and discrete actions
    max_steps=max_steps,
    device=vmas_device,
    # Scenario kwargs
    n_agents=n_agents,  # These are custom kwargs that change for each VMAS scenario, see the VMAS repo to know more.
)

环境不仅由其模拟器和转换定义,还由一系列描述其执行过程中可以预期内容的元数据定义。出于效率考虑,TorchRL 在环境规格方面非常严格,但您可以轻松地检查您的环境规格是否足够。在我们的示例中,VmasEnv 负责为您设置正确的环境规格,因此您不必担心这个问题。

有四个规格需要查看

  • action_spec 定义动作空间;

  • reward_spec 定义奖励域;

  • done_spec 定义完成域;

  • observation_spec 定义环境步骤的所有其他输出的域;

print("action_spec:", env.full_action_spec)
print("reward_spec:", env.full_reward_spec)
print("done_spec:", env.full_done_spec)
print("observation_spec:", env.observation_spec)
action_spec: CompositeSpec(
    agents: CompositeSpec(
        action: BoundedTensorSpec(
            shape=torch.Size([60, 3, 2]),
            space=ContinuousBox(
                low=Tensor(shape=torch.Size([60, 3, 2]), device=cpu, dtype=torch.float32, contiguous=True),
                high=Tensor(shape=torch.Size([60, 3, 2]), device=cpu, dtype=torch.float32, contiguous=True)),
            device=cpu,
            dtype=torch.float32,
            domain=continuous),
        device=cpu,
        shape=torch.Size([60, 3])),
    device=cpu,
    shape=torch.Size([60]))
reward_spec: CompositeSpec(
    agents: CompositeSpec(
        reward: UnboundedContinuousTensorSpec(
            shape=torch.Size([60, 3, 1]),
            space=None,
            device=cpu,
            dtype=torch.float32,
            domain=continuous),
        device=cpu,
        shape=torch.Size([60, 3])),
    device=cpu,
    shape=torch.Size([60]))
done_spec: CompositeSpec(
    done: DiscreteTensorSpec(
        shape=torch.Size([60, 1]),
        space=DiscreteBox(n=2),
        device=cpu,
        dtype=torch.bool,
        domain=discrete),
    terminated: DiscreteTensorSpec(
        shape=torch.Size([60, 1]),
        space=DiscreteBox(n=2),
        device=cpu,
        dtype=torch.bool,
        domain=discrete),
    device=cpu,
    shape=torch.Size([60]))
observation_spec: CompositeSpec(
    agents: CompositeSpec(
        observation: UnboundedContinuousTensorSpec(
            shape=torch.Size([60, 3, 18]),
            space=None,
            device=cpu,
            dtype=torch.float32,
            domain=continuous),
        info: CompositeSpec(
            pos_rew: UnboundedContinuousTensorSpec(
                shape=torch.Size([60, 3, 1]),
                space=None,
                device=cpu,
                dtype=torch.float32,
                domain=continuous),
            final_rew: UnboundedContinuousTensorSpec(
                shape=torch.Size([60, 3, 1]),
                space=None,
                device=cpu,
                dtype=torch.float32,
                domain=continuous),
            agent_collisions: UnboundedContinuousTensorSpec(
                shape=torch.Size([60, 3, 1]),
                space=None,
                device=cpu,
                dtype=torch.float32,
                domain=continuous),
            device=cpu,
            shape=torch.Size([60, 3])),
        device=cpu,
        shape=torch.Size([60, 3])),
    device=cpu,
    shape=torch.Size([60]))

使用刚刚显示的命令,我们可以访问每个值的域。通过这样做,我们可以看到除了完成之外的所有规格都有一个领先的形状 (num_vmas_envs, n_agents)。这表示这些值将在每个环境中每个智能体中出现。另一方面,完成规格的领先形状为 num_vmas_envs,表示完成在智能体之间共享。

TorchRL 有一种方法可以跟踪哪些 MARL 规格是共享的,哪些不是。实际上,具有附加智能体维度的规格(即,它们会因每个智能体而异)将包含在内部“agents”键中。

如您所见,奖励和动作规格显示“agent”键,这意味着属于这些规格的张量字典中的条目将嵌套在“agents”张量字典中,将所有每个智能体值分组。

为了快速访问张量字典中每个值的键,我们可以简单地向环境请求相应的键,这样我们就能立即知道哪些是每个智能体的,哪些是共享的。此信息将有助于告诉所有其他 TorchRL 组件在哪里找到每个值

print("action_keys:", env.action_keys)
print("reward_keys:", env.reward_keys)
print("done_keys:", env.done_keys)
action_keys: [('agents', 'action')]
reward_keys: [('agents', 'reward')]
done_keys: ['done', 'terminated']

转换

我们可以将任何所需的 TorchRL 转换追加到我们的环境中。这些将以某种期望的方式修改其输入/输出。我们强调,在多智能体环境中,明确提供要修改的键至关重要。

例如,在本例中,我们将实例化一个 RewardSum 转换,它将对整个情节的奖励进行求和。我们将告诉该转换在何处找到奖励键以及在何处写入求和后的情节奖励。转换后的环境将继承包装环境的设备和元数据,并根据其包含的转换序列对这些内容进行转换。

env = TransformedEnv(
    env,
    RewardSum(in_keys=[env.reward_key], out_keys=[("agents", "episode_reward")]),
)

the check_env_specs() 函数运行一个小规模的展开并将其输出与环境规格进行比较。如果没有引发错误,我们可以确信规格定义正确

check_env_specs(env)

展开

为了有趣,让我们看看简单的随机展开是什么样的。您可以调用 env.rollout(n_steps),并概览环境的输入和输出。动作将自动从动作规格域中随机抽取。

n_rollout_steps = 5
rollout = env.rollout(n_rollout_steps)
print("rollout of three steps:", rollout)
print("Shape of the rollout TensorDict:", rollout.batch_size)
rollout of three steps: TensorDict(
    fields={
        agents: TensorDict(
            fields={
                action: Tensor(shape=torch.Size([60, 5, 3, 2]), device=cpu, dtype=torch.float32, is_shared=False),
                episode_reward: Tensor(shape=torch.Size([60, 5, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                info: TensorDict(
                    fields={
                        agent_collisions: Tensor(shape=torch.Size([60, 5, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                        final_rew: Tensor(shape=torch.Size([60, 5, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                        pos_rew: Tensor(shape=torch.Size([60, 5, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
                    batch_size=torch.Size([60, 5, 3]),
                    device=cpu,
                    is_shared=False),
                observation: Tensor(shape=torch.Size([60, 5, 3, 18]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([60, 5, 3]),
            device=cpu,
            is_shared=False),
        done: Tensor(shape=torch.Size([60, 5, 1]), device=cpu, dtype=torch.bool, is_shared=False),
        next: TensorDict(
            fields={
                agents: TensorDict(
                    fields={
                        episode_reward: Tensor(shape=torch.Size([60, 5, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                        info: TensorDict(
                            fields={
                                agent_collisions: Tensor(shape=torch.Size([60, 5, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                                final_rew: Tensor(shape=torch.Size([60, 5, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                                pos_rew: Tensor(shape=torch.Size([60, 5, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
                            batch_size=torch.Size([60, 5, 3]),
                            device=cpu,
                            is_shared=False),
                        observation: Tensor(shape=torch.Size([60, 5, 3, 18]), device=cpu, dtype=torch.float32, is_shared=False),
                        reward: Tensor(shape=torch.Size([60, 5, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
                    batch_size=torch.Size([60, 5, 3]),
                    device=cpu,
                    is_shared=False),
                done: Tensor(shape=torch.Size([60, 5, 1]), device=cpu, dtype=torch.bool, is_shared=False),
                terminated: Tensor(shape=torch.Size([60, 5, 1]), device=cpu, dtype=torch.bool, is_shared=False)},
            batch_size=torch.Size([60, 5]),
            device=cpu,
            is_shared=False),
        terminated: Tensor(shape=torch.Size([60, 5, 1]), device=cpu, dtype=torch.bool, is_shared=False)},
    batch_size=torch.Size([60, 5]),
    device=cpu,
    is_shared=False)
Shape of the rollout TensorDict: torch.Size([60, 5])

我们可以看到我们的展开的 batch_size(num_vmas_envs, n_rollout_steps)。这意味着其中的所有张量都将具有这些领先维度。

深入查看,我们可以看到输出张量字典可以按照以下方式划分

  • 在根目录(通过运行 rollout.exclude("next") 访问)中,我们将找到在第一个时间步调用重置后可用的所有键。我们可以通过索引 n_rollout_steps 维度来查看它们在展开步骤中的演变。在这些键中,我们将找到在 rollout["agents"] 张量字典中每个智能体都不同的键,该字典的批次大小为 (num_vmas_envs, n_rollout_steps, n_agents),表示它正在存储附加的智能体维度。该代理张量字典之外的键将是共享键(在本例中仅为完成)。

  • 在 next(通过运行 rollout.get("next") 访问)中。我们将找到与根目录相同的结构,但适用于仅在步骤后可用的键。

在 TorchRL 中,惯例是完成和观察结果将在根目录和 next 中都存在(因为这些结果在重置时和步骤后都可用)。动作仅在根目录中可用(因为步骤没有产生动作),而奖励仅在 next 中可用(因为重置时没有奖励)。这种结构遵循强化学习:入门(萨顿和巴托)中的结构,其中根目录表示时间 \(t\) 的数据,而 next 表示世界步骤时间 \(t+1\) 的数据。

渲染随机展开

如果您使用的是 Google Colab,或者在具有 OpenGL 和 GUI 的机器上,您实际上可以渲染随机展开。这将让您了解随机策略在本任务中会取得什么样的成果,以便将其与您自己训练的策略进行比较!

要渲染展开,请按照本教程结尾处渲染部分中的说明操作,只需从 env.rollout() 中删除 policy=policy 行。

策略

PPO 利用随机策略来处理探索。这意味着我们的神经网络必须输出分布的参数,而不是对应于所采取动作的单个值。

由于数据是连续的,因此我们使用 Tanh-正态分布来遵守动作空间边界。TorchRL 提供了这种分布,我们唯一需要关心的是构建一个输出正确数量参数的神经网络。

在本例中,每个智能体的动作将由一个二维独立的正态分布表示。为此,我们的神经网络必须为每个动作输出一个均值和一个标准差。因此,每个智能体将有 2 * n_actions_per_agents 个输出。

我们需要做的另一个重要决定是,我们是否希望我们的智能体共享策略参数。一方面,共享参数意味着它们将共享相同的策略,这将使它们能够从彼此的经验中获益。这也会导致训练速度更快。另一方面,这会使它们的行为同质化,因为它们实际上将共享相同的模型。对于本示例,我们将启用共享,因为我们不介意同质性,并且可以从计算速度中获益,但重要的是要始终在自己的问题中考虑这个决定!

我们分三个步骤设计策略。

首先:定义一个神经网络 n_obs_per_agent -> 2 * n_actions_per_agents

为此,我们使用 MultiAgentMLP,这是一个专门针对多个智能体的 TorchRL 模块,可进行大量自定义。

share_parameters_policy = True

policy_net = torch.nn.Sequential(
    MultiAgentMLP(
        n_agent_inputs=env.observation_spec["agents", "observation"].shape[
            -1
        ],  # n_obs_per_agent
        n_agent_outputs=2 * env.action_spec.shape[-1],  # 2 * n_actions_per_agents
        n_agents=env.n_agents,
        centralised=False,  # the policies are decentralised (ie each agent will act from its observation)
        share_params=share_parameters_policy,
        device=device,
        depth=2,
        num_cells=256,
        activation_class=torch.nn.Tanh,
    ),
    NormalParamExtractor(),  # this will just separate the last dimension into two outputs: a loc and a non-negative scale
)

第二:将神经网络包装在 TensorDictModule

这只是一个模块,它将从张量字典中读取 in_keys,将其馈送到神经网络,并将输出就地写入 out_keys

请注意,我们使用 ("agents", ...) 键,因为这些键表示具有附加 n_agents 维度的数

policy_module = TensorDictModule(
    policy_net,
    in_keys=[("agents", "observation")],
    out_keys=[("agents", "loc"), ("agents", "scale")],
)

第三:将 TensorDictModule 包装在 ProbabilisticActor

现在我们需要从正态分布的位置和尺度构建一个分布。为此,我们指示 ProbabilisticActor 类从位置和尺度参数构建一个 TanhNormal。我们还提供了此分布的最小值和最大值,这些值是从环境规格中收集的。

the in_keys(以及 TensorDictModule 上的 out_keys)的名称必须以 TanhNormal 分布构造函数关键字参数(loc 和 scale)结尾。

policy = ProbabilisticActor(
    module=policy_module,
    spec=env.unbatched_action_spec,
    in_keys=[("agents", "loc"), ("agents", "scale")],
    out_keys=[env.action_key],
    distribution_class=TanhNormal,
    distribution_kwargs={
        "low": env.unbatched_action_spec[env.action_key].space.low,
        "high": env.unbatched_action_spec[env.action_key].space.high,
    },
    return_log_prob=True,
    log_prob_key=("agents", "sample_log_prob"),
)  # we'll need the log-prob for the PPO loss

评论家网络

评论家网络是 PPO 算法的关键组件,即使它在采样时未使用。此模块将读取观察结果并返回相应的价值估计。

与之前一样,您应该仔细考虑共享评论家参数的决定。总的来说,参数共享将使训练收敛更快,但需要考虑一些重要的因素

  • 当智能体具有不同的奖励函数时,不建议共享,因为评论家需要学会为同一个状态分配不同的价值(例如,在混合合作竞争设置中)。

  • 在分散式训练设置中,如果不使用额外的基础设施来同步参数,则无法进行共享。

在所有其他情况下,如果所有智能体的奖励函数(与奖励区分开来)都相同(如当前场景),则共享可以提高性能。这可能会以智能体策略的同质性为代价。一般来说,了解哪种选择更可取的最佳方法是快速尝试两种选项。

这里我们还需要在 **MAPPO 和 IPPO** 之间进行选择。

  • 使用 MAPPO,我们将获得一个具有完全可观察性的中心批评者(即,它将接收所有连接的智能体观察作为输入)。我们之所以可以这样做,是因为我们在一个模拟器中,训练是集中式的。

  • 使用 IPPO,我们将有一个本地分散的批评者,就像策略一样。

在任何情况下,批评者的输出将具有形状 (..., n_agents, 1)。如果批评者是集中的并且共享,则沿 n_agents 维度的所有值将相同。

share_parameters_critic = True
mappo = True  # IPPO if False

critic_net = MultiAgentMLP(
    n_agent_inputs=env.observation_spec["agents", "observation"].shape[-1],
    n_agent_outputs=1,  # 1 value per agent
    n_agents=env.n_agents,
    centralised=mappo,
    share_params=share_parameters_critic,
    device=device,
    depth=2,
    num_cells=256,
    activation_class=torch.nn.Tanh,
)

critic = TensorDictModule(
    module=critic_net,
    in_keys=[("agents", "observation")],
    out_keys=[("agents", "state_value")],
)

让我们尝试一下我们的策略和批评模块。正如前面提到的,使用 TensorDictModule 使得可以直接读取环境的输出以运行这些模块,因为它们知道要读取哪些信息以及在何处写入信息。

从这一点开始,特定于多智能体的组件已经实例化,我们将简单地使用与单智能体学习中相同的组件。这不是很棒吗?

print("Running policy:", policy(env.reset()))
print("Running value:", critic(env.reset()))
Running policy: TensorDict(
    fields={
        agents: TensorDict(
            fields={
                action: Tensor(shape=torch.Size([60, 3, 2]), device=cpu, dtype=torch.float32, is_shared=False),
                episode_reward: Tensor(shape=torch.Size([60, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                info: TensorDict(
                    fields={
                        agent_collisions: Tensor(shape=torch.Size([60, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                        final_rew: Tensor(shape=torch.Size([60, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                        pos_rew: Tensor(shape=torch.Size([60, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
                    batch_size=torch.Size([60, 3]),
                    device=cpu,
                    is_shared=False),
                loc: Tensor(shape=torch.Size([60, 3, 2]), device=cpu, dtype=torch.float32, is_shared=False),
                observation: Tensor(shape=torch.Size([60, 3, 18]), device=cpu, dtype=torch.float32, is_shared=False),
                sample_log_prob: Tensor(shape=torch.Size([60, 3]), device=cpu, dtype=torch.float32, is_shared=False),
                scale: Tensor(shape=torch.Size([60, 3, 2]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([60, 3]),
            device=cpu,
            is_shared=False),
        done: Tensor(shape=torch.Size([60, 1]), device=cpu, dtype=torch.bool, is_shared=False),
        terminated: Tensor(shape=torch.Size([60, 1]), device=cpu, dtype=torch.bool, is_shared=False)},
    batch_size=torch.Size([60]),
    device=cpu,
    is_shared=False)
Running value: TensorDict(
    fields={
        agents: TensorDict(
            fields={
                episode_reward: Tensor(shape=torch.Size([60, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                info: TensorDict(
                    fields={
                        agent_collisions: Tensor(shape=torch.Size([60, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                        final_rew: Tensor(shape=torch.Size([60, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                        pos_rew: Tensor(shape=torch.Size([60, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
                    batch_size=torch.Size([60, 3]),
                    device=cpu,
                    is_shared=False),
                observation: Tensor(shape=torch.Size([60, 3, 18]), device=cpu, dtype=torch.float32, is_shared=False),
                state_value: Tensor(shape=torch.Size([60, 3, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([60, 3]),
            device=cpu,
            is_shared=False),
        done: Tensor(shape=torch.Size([60, 1]), device=cpu, dtype=torch.bool, is_shared=False),
        terminated: Tensor(shape=torch.Size([60, 1]), device=cpu, dtype=torch.bool, is_shared=False)},
    batch_size=torch.Size([60]),
    device=cpu,
    is_shared=False)

数据收集器

TorchRL 提供了一组数据收集器类。简而言之,这些类执行三个操作:重置环境、使用策略和最新的观察结果计算动作、在环境中执行一步,并重复最后两步,直到环境发出停止信号(或达到完成状态)。

我们将使用最简单的数据收集器,它与环境回滚的输出相同,唯一的区别是它会自动重置完成状态,直到收集到所需帧。

collector = SyncDataCollector(
    env,
    policy,
    device=vmas_device,
    storing_device=device,
    frames_per_batch=frames_per_batch,
    total_frames=total_frames,
)

回放缓冲区

回放缓冲区是离策略 RL 算法的常见构建块。在在线策略上下文中,每次收集一批数据时,回放缓冲区就会被重新填充,并且它的数据会重复使用一定数量的时期。

对于 PPO 使用回放缓冲区不是强制性的,我们可以简单地在线使用收集到的数据,但是使用这些类可以让我们轻松地以可重复的方式构建内部训练循环。

replay_buffer = ReplayBuffer(
    storage=LazyTensorStorage(
        frames_per_batch, device=device
    ),  # We store the frames_per_batch collected at each iteration
    sampler=SamplerWithoutReplacement(),
    batch_size=minibatch_size,  # We will sample minibatches of this size
)

损失函数

为了方便起见,可以直接从 TorchRL 导入 PPO 损失,使用 ClipPPOLoss 类。这是利用 PPO 的最简单方法:它隐藏了 PPO 的数学运算以及伴随它的控制流。

PPO 需要计算一些“优势估计”。简而言之,优势是一个反映在处理偏差/方差权衡时对回报值的期望的值。为了计算优势,只需要(1)构建优势模块,该模块利用我们的值运算符,以及(2)在每个时期之前将每批数据传入该模块。GAE 模块将使用新的 "advantage""value_target" 条目更新输入 TensorDict"value_target" 是一个无梯度的张量,它表示值网络应该用输入观察值表示的经验值。这两者都将被 ClipPPOLoss 用于返回策略和值损失。

loss_module = ClipPPOLoss(
    actor_network=policy,
    critic_network=critic,
    clip_epsilon=clip_epsilon,
    entropy_coef=entropy_eps,
    normalize_advantage=False,  # Important to avoid normalizing across the agent dimension
)
loss_module.set_keys(  # We have to tell the loss where to find the keys
    reward=env.reward_key,
    action=env.action_key,
    sample_log_prob=("agents", "sample_log_prob"),
    value=("agents", "state_value"),
    # These last 2 keys will be expanded to match the reward shape
    done=("agents", "done"),
    terminated=("agents", "terminated"),
)


loss_module.make_value_estimator(
    ValueEstimators.GAE, gamma=gamma, lmbda=lmbda
)  # We build GAE
GAE = loss_module.value_estimator

optim = torch.optim.Adam(loss_module.parameters(), lr)

训练循环

现在我们拥有了编写训练循环所需的所有部分。这些步骤包括

  • 收集数据
    • 计算优势
      • 遍历时期
        • 遍历小批量以计算损失值
          • 反向传播

          • 优化

        • 重复

      • 重复

    • 重复

  • 重复

pbar = tqdm(total=n_iters, desc="episode_reward_mean = 0")

episode_reward_mean_list = []
for tensordict_data in collector:
    tensordict_data.set(
        ("next", "agents", "done"),
        tensordict_data.get(("next", "done"))
        .unsqueeze(-1)
        .expand(tensordict_data.get_item_shape(("next", env.reward_key))),
    )
    tensordict_data.set(
        ("next", "agents", "terminated"),
        tensordict_data.get(("next", "terminated"))
        .unsqueeze(-1)
        .expand(tensordict_data.get_item_shape(("next", env.reward_key))),
    )
    # We need to expand the done and terminated to match the reward shape (this is expected by the value estimator)

    with torch.no_grad():
        GAE(
            tensordict_data,
            params=loss_module.critic_network_params,
            target_params=loss_module.target_critic_network_params,
        )  # Compute GAE and add it to the data

    data_view = tensordict_data.reshape(-1)  # Flatten the batch size to shuffle data
    replay_buffer.extend(data_view)

    for _ in range(num_epochs):
        for _ in range(frames_per_batch // minibatch_size):
            subdata = replay_buffer.sample()
            loss_vals = loss_module(subdata)

            loss_value = (
                loss_vals["loss_objective"]
                + loss_vals["loss_critic"]
                + loss_vals["loss_entropy"]
            )

            loss_value.backward()

            torch.nn.utils.clip_grad_norm_(
                loss_module.parameters(), max_grad_norm
            )  # Optional

            optim.step()
            optim.zero_grad()

    collector.update_policy_weights_()

    # Logging
    done = tensordict_data.get(("next", "agents", "done"))
    episode_reward_mean = (
        tensordict_data.get(("next", "agents", "episode_reward"))[done].mean().item()
    )
    episode_reward_mean_list.append(episode_reward_mean)
    pbar.set_description(f"episode_reward_mean = {episode_reward_mean}", refresh=False)
    pbar.update()
episode_reward_mean = 0:   0%|          | 0/10 [00:00<?, ?it/s]
episode_reward_mean = -0.4579917788505554:  10%|█         | 1/10 [00:06<01:01,  6.78s/it]
episode_reward_mean = 0.14524875581264496:  20%|██        | 2/10 [00:13<00:54,  6.79s/it]
episode_reward_mean = 1.168386459350586:  30%|███       | 3/10 [00:20<00:47,  6.75s/it]
episode_reward_mean = 1.3613134622573853:  40%|████      | 4/10 [00:27<00:40,  6.75s/it]
episode_reward_mean = 1.921463131904602:  50%|█████     | 5/10 [00:33<00:33,  6.75s/it]
episode_reward_mean = 2.2106335163116455:  60%|██████    | 6/10 [00:40<00:26,  6.73s/it]
episode_reward_mean = 2.1925103664398193:  70%|███████   | 7/10 [00:47<00:20,  6.76s/it]
episode_reward_mean = 2.664064407348633:  80%|████████  | 8/10 [00:54<00:13,  6.80s/it]
episode_reward_mean = 2.6539173126220703:  90%|█████████ | 9/10 [01:01<00:06,  6.85s/it]
episode_reward_mean = 2.743558168411255: 100%|██████████| 10/10 [01:08<00:00,  6.90s/it]

结果

让我们绘制每个情节获得的平均奖励

为了使训练持续更长时间,请增加 n_iters 超参数。

plt.plot(episode_reward_mean_list)
plt.xlabel("Training iterations")
plt.ylabel("Reward")
plt.title("Episode reward mean")
plt.show()
Episode reward mean

渲染

如果您在具有 GUI 的机器上运行此程序,可以通过运行以下命令来渲染训练后的策略

with torch.no_grad():
   env.rollout(
       max_steps=max_steps,
       policy=policy,
       callback=lambda env, _: env.render(),
       auto_cast_to_device=True,
       break_when_any_done=False,
   )

如果您在 Google Colab 中运行此程序,可以通过运行以下命令来渲染训练后的策略

!apt-get update
!apt-get install -y x11-utils
!apt-get install -y xvfb
!pip install pyvirtualdisplay
import pyvirtualdisplay
display = pyvirtualdisplay.Display(visible=False, size=(1400, 900))
display.start()
from PIL import Image

def rendering_callback(env, td):
    env.frames.append(Image.fromarray(env.render(mode="rgb_array")))
env.frames = []
with torch.no_grad():
   env.rollout(
       max_steps=max_steps,
       policy=policy,
       callback=rendering_callback,
       auto_cast_to_device=True,
       break_when_any_done=False,
   )
env.frames[0].save(
    f"{scenario_name}.gif",
    save_all=True,
    append_images=env.frames[1:],
   duration=3,
   loop=0,
)

from IPython.display import Image
Image(open(f"{scenario_name}.gif", "rb").read())

结论和下一步

在本教程中,我们已经看到了

  • 如何在 TorchRL 中创建多智能体环境,其规范如何工作以及它如何与库集成;

  • 如何在 TorchRL 中使用 GPU 矢量化环境;

  • 如何在 TorchRL 中创建不同的多智能体网络架构(例如,使用参数共享、集中式 critic)

  • 我们如何使用 tensordict.TensorDict 来承载多智能体数据;

  • 我们如何将所有库组件(收集器、模块、回放缓冲区和损失)绑定在多智能体 MAPPO/IPPO 训练循环中。

现在您已经熟练掌握了多智能体 DDPG,您可以查看 GitHub 存储库中的所有 TorchRL 多智能体实现。这些是许多流行的 MARL 算法的仅代码脚本,例如本教程中看到的算法、QMIX、MADDPG、IQL 等等!

您还可以查看我们关于如何在 PettingZoo/VMAS 中使用多个智能体组训练竞争性 MADDPG/IDDPG 的其他多智能体教程:使用 TorchRL 教程进行竞争性多智能体强化学习 (DDPG)

如果您有兴趣在 TorchRL 中创建或包装自己的多智能体环境,您可以查看专门的 文档部分

最后,您可以修改本教程的参数以尝试许多其他配置和场景,以成为 MARL 大师。以下是一些您可以在 VMAS 中尝试的一些可能场景的视频。

VMAS scenarios

VMAS 中可用的场景

脚本的总运行时间:(2 分钟 4.311 秒)

估计内存使用量:319 MB

Sphinx-Gallery 生成的画廊

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源