快捷方式

指标

指标 API。

概述:

torchelastic 中的指标 API 用于发布遥测指标。它旨在由 torchelastic 的内部模块使用,以发布供最终用户使用的指标,目标是提高可见性并帮助进行调试。但是,您也可以在作业中使用相同的 API 将指标发布到相同的指标 sink

一个 metric 可以被认为是时间序列数据,并由字符串值元组 (metric_group, metric_name) 唯一标识。

torchelastic 不会对 metric_group 是什么以及它与 metric_name 有什么关系做出任何假设。完全由用户决定使用这两个字段来唯一标识指标。

注意

指标组 torchelastic 由 torchelastic 保留,用于它生成的平台级指标。例如,torchelastic 可以将代理的重新协商操作的延迟(以毫秒为单位)输出为 (torchelastic, agent.rendezvous.duration.ms)

一种明智的方法是将指标组映射到作业中的某个阶段或模块。您也可以对作业的某些高级属性进行编码,例如区域或阶段(开发版与生产版)。

发布指标:

使用 torchelastic 的指标 API 类似于使用 python 的日志记录框架。您必须先配置指标处理程序,然后再尝试添加指标数据。

以下示例测量 calculate() 函数的延迟。

import time
import torch.distributed.elastic.metrics as metrics

# makes all metrics other than the one from "my_module" to go /dev/null
metrics.configure(metrics.NullMetricsHandler())
metrics.configure(metrics.ConsoleMetricsHandler(), "my_module")

def my_method():
  start = time.time()
  calculate()
  end = time.time()
  metrics.put_metric("calculate_latency", int(end-start), "my_module")

您还可以使用 torch.distributed.elastic.metrics.prof` 装饰器方便快捷地分析函数

# -- in module examples.foobar --

import torch.distributed.elastic.metrics as metrics

metrics.configure(metrics.ConsoleMetricsHandler(), "foobar")
metrics.configure(metrics.ConsoleMetricsHandler(), "Bar")

@metrics.prof
def foo():
  pass

class Bar():

  @metrics.prof
  def baz():
      pass

@metrics.prof 将发布以下指标

<leaf_module or classname>.success - 1 if the function finished successfully
<leaf_module or classname>.failure - 1 if the function threw an exception
<leaf_module or classname>.duration.ms - function duration in milliseconds

配置指标处理程序:

torch.distributed.elastic.metrics.MetricHandler 负责将添加的指标值发出到特定目的地。指标组可以使用不同的指标处理程序进行配置。

默认情况下,torchelastic 将所有指标发出到 /dev/null。通过添加以下配置指标,torchelasticmy_app 指标组将被打印到控制台。

import torch.distributed.elastic.metrics as metrics

metrics.configure(metrics.ConsoleMetricHandler(), group = "torchelastic")
metrics.configure(metrics.ConsoleMetricHandler(), group = "my_app")

编写自定义指标处理程序:

如果您希望将指标发出到自定义位置,请实现 torch.distributed.elastic.metrics.MetricHandler 接口,并配置您的作业以使用自定义指标处理程序。

以下是一个将指标打印到 stdout 的示例

import torch.distributed.elastic.metrics as metrics

class StdoutMetricHandler(metrics.MetricHandler):
   def emit(self, metric_data):
       ts = metric_data.timestamp
       group = metric_data.group_name
       name = metric_data.name
       value = metric_data.value
       print(f"[{ts}][{group}]: {name}={value}")

metrics.configure(StdoutMetricHandler(), group="my_app")

现在,my_app 组中的所有指标都将打印到 stdout,格式为

[1574213883.4182858][my_app]: my_metric=<value>
[1574213940.5237644][my_app]: my_metric=<value>

指标处理程序

以下列出了 torchelastic 附带的指标处理程序。

class torch.distributed.elastic.metrics.api.MetricHandler[source]
class torch.distributed.elastic.metrics.api.ConsoleMetricHandler[source]
class torch.distributed.elastic.metrics.api.NullMetricHandler[source]

方法

torch.distributed.elastic.metrics.configure(handler, group=None)[source]
torch.distributed.elastic.metrics.prof(fn=None, group='torchelastic')[source]

@profile 装饰器发布它修饰的函数的 duration.ms、count、success、failure 指标。

指标名称默认使用函数的限定名称(class_name.def_name)。如果函数不属于任何类,则使用叶子模块名称。

用法

@metrics.prof
def x():
    pass

@metrics.prof(group="agent")
def y():
    pass
torch.distributed.elastic.metrics.put_metric(metric_name, metric_value, metric_group='torchelastic')[source]

发布指标数据点。

用法

put_metric("metric_name", 1)
put_metric("metric_name", 1, "metric_group_name")

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源