ReplayBufferTrainer¶
- class torchrl.trainers.ReplayBufferTrainer(replay_buffer: TensorDictReplayBuffer, batch_size: Optional[int] = None, memmap: bool = False, device: Union[device, str, int] = 'cpu', flatten_tensordicts: bool = False, max_dims: Optional[Sequence[int]] = None)[source]¶
回放缓冲区 hook 提供程序。
- 参数:
replay_buffer (TensorDictReplayBuffer) – 要使用的回放缓冲区。
batch_size (int, optional) – 从最新集合或回放缓冲区采样数据时的批量大小。如果未提供,将使用回放缓冲区的批量大小(对于未更改的批量大小,这是首选选项)。
memmap (bool, optional) – 如果
True
,则创建一个内存映射 tensordict。默认为False
。device (device, optional) – 样本必须放置的设备。默认为
cpu
。flatten_tensordicts (bool, optional) – 如果
True
,则 tensordict 将被展平(或等效地使用从收集器获得的有效掩码进行掩码),然后再传递到回放缓冲区。 否则,除了填充之外,不会实现其他转换(参见下面的max_dims
参数)。默认为False
。max_dims (int 序列, optional) – 如果
flatten_tensordicts
设置为 False,这将是表示每个 tensordict 最大大小的所提供 tensordict 的批量大小长度的列表。如果提供,此大小列表将用于填充 tensordict 并使其形状匹配,然后再将其传递到回放缓冲区。 如果没有最大值,则应提供 -1 值。
示例
>>> rb_trainer = ReplayBufferTrainer(replay_buffer=replay_buffer, batch_size=N) >>> trainer.register_op("batch_process", rb_trainer.extend) >>> trainer.register_op("process_optim_batch", rb_trainer.sample) >>> trainer.register_op("post_loss", rb_trainer.update_priority)