快捷键

记录器

class torchrl.trainers.Recorder(*, record_interval: int, record_frames: int, frame_skip: int = 1, policy_exploration: TensorDictModule, environment: Optional[EnvBase] = None, exploration_type: InteractionType = InteractionType.RANDOM, log_keys: Optional[List[Union[str, Tuple[str]]]] = None, out_keys: Optional[Dict[Union[str, Tuple[str]], str]] = None, suffix: Optional[str] = None, log_pbar: bool = False, recorder: Optional[EnvBase] = None)[source]

用于 Trainer 的记录器钩子。

参数:
  • record_interval (int) – 每次调用记录器进行测试之间,优化步骤的总数。

  • record_frames (int) – 测试期间要记录的帧数。

  • frame_skip (int) – 环境中使用的 frame_skip。让训练器了解每次迭代跳过的帧数很重要,否则帧数会被低估。对于日志记录,此参数对于规范化奖励很重要。最后,为了比较不同 frame_skip 的不同运行,必须规范化帧数和奖励。默认值为 1

  • policy_exploration (ProbabilisticTDModule) –

    用于

    1. 更新探索噪声计划的策略实例;

    2. 在记录器上测试策略。

    鉴于此实例应该同时探索和呈现策略的性能,因此应该可以通过调用 set_exploration_type(ExplorationType.DETERMINISTIC) 上下文管理器来关闭探索行为。

  • environment (EnvBase) – 用于测试的环境实例。

  • exploration_type (ExplorationType, optional) – 用于策略的探索模式。默认情况下,不使用探索,使用的值为 ExplorationType.DETERMINISTIC。设置为 ExplorationType.RANDOM 以启用探索

  • log_keys (sequence of str or tuples or str, optional) – 用于日志记录的 tensordict 中要读取的键。默认值为 [("next", "reward")]

  • out_keys (Dict[str, str], optional) – 一个将 log_keys 映射到日志中名称的字典。默认值为 {("next", "reward"): "r_evaluation"}

  • suffix (str, optional) – 要记录的视频的后缀。

  • log_pbar (bool, optional) – 如果为 True,则奖励值将在进度条上记录。默认值为 False

register(trainer: Trainer, name: str = 'recorder')[source]

在训练器默认位置注册钩子。

参数:
  • trainer (Trainer) – 必须注册钩子的训练器。

  • name (str) – 钩子的名称。

注意

要将钩子注册到默认位置以外的位置,请使用 register_op()

文档

访问 PyTorch 的全面开发文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得答案

查看资源