指标¶
对于指标,我们建议使用 Tensorboard,将指标直接记录到您的模型旁边的云存储中。随着模型的训练,您可以在本地启动一个 Tensorboard 实例来监视模型进度
$ tensorboard --log-dir provider://path/to/logs
或者,您可以将 torchx.components.metrics.tensorboard()
组件用作管道的一部分。
请参阅 Trainer 示例,了解如何使用 PyTorch Lightning TensorboardLogger。
参考¶
PyTorch Tensorboard 教程 https://pytorch.ac.cn/tutorials/intermediate/tensorboard_tutorial.html
PyTorch Lightning 记录器 https://pytorch-lightning.readthedocs.io/en/stable/extensions/logging.html
- torchx.components.metrics.tensorboard(logdir: str, image: str = 'ghcr.io/pytorch/torchx:0.7.0', timeout: float = 3600, port: int = 6006, start_on_file: str = '', exit_on_file: str = '') AppDef [source]¶
此组件将运行一个 Tensorboard 服务器,该服务器会呈现由 logdir 指定的日志。
由于 Tensorboard 以服务形式运行,因此您需要指定终止条件。这包括超时时间以及一个可选的
exit_on_file
,当创建该路径时,该路径将导致服务退出。这些文件将通过 fsspec 定期轮询是否存在,并在创建时触发相应行为。
- 参数:
logdir – 指向 Tensorboard 日志的 fsspec 路径
image – 要使用的图像
timeout – 退出之前运行的最长时间(秒)
在文件上手动启动 – 当创建 fsspec 路径时启动服务器
在文件上退出 – 当创建 fsspec 路径时关闭服务器