torch.autograd.grad¶
- torch.autograd.grad(outputs, inputs, grad_outputs=None, retain_graph=None, create_graph=False, only_inputs=True, allow_unused=None, is_grads_batched=False, materialize_grads=False)[source]¶
计算并返回输出相对于输入的梯度之和。
grad_outputs
应为与output
长度匹配的序列,包含向量-雅可比乘积中的“向量”,通常是相对于每个输出预先计算的梯度。如果输出不需要求导,则梯度可以为None
)。注意
如果您在用户指定的 CUDA 流上下文运行任何前向操作、创建
grad_outputs
或调用grad
,请参见 反向传播的流语义.注意
only_inputs
参数已弃用,现在已被忽略(默认为True
)。要为图形的其他部分累积梯度,请使用torch.autograd.backward
。- 参数
outputs (sequence of Tensor or GradientEdge) – 微分函数的输出。
inputs (sequence of Tensor or GradientEdge) – 将返回梯度(不会累积到
.grad
)的输入。grad_outputs (sequence of Tensor) – 向量-雅可比乘积中的“向量”。通常是相对于每个输出的梯度。可以为标量张量或不需要求导的张量指定 None 值。如果所有 grad_tensors 都可以接受 None 值,则此参数是可选的。默认值:None。
retain_graph (bool, optional) – 如果为
False
,则用于计算梯度的图形将被释放。请注意,在几乎所有情况下,将此选项设置为True
都是不需要的,通常可以通过更有效的方式解决。默认为create_graph
的值。create_graph (bool, optional) – 如果为
True
,则将构建导数图形,允许计算高阶导数乘积。默认值:False
。allow_unused (Optional[bool], optional) – 如果为
False
,则指定在计算输出时未使用的输入(因此其梯度始终为零)将导致错误。默认为materialize_grads
的值。is_grads_batched (布尔值, 可选) – 如果
True
,grad_outputs
中每个张量的第一个维度将被解释为批次维度。我们不会计算单个向量-雅可比积,而是为批次中的每个“向量”计算一批向量-雅可比积。我们使用 vmap 原型功能作为后端来矢量化对自动微分引擎的调用,以便可以在一次调用中执行此计算。与手动循环并多次执行反向传播相比,这应该会带来性能改进。请注意,由于此功能处于实验阶段,可能会出现性能悬崖。请使用torch._C._debug_only_display_vmap_fallback_warnings(True)
来显示任何性能警告,如果您的用例存在警告,请在 github 上提交问题。默认值为False
。materialize_grads (布尔值, 可选) – 如果
True
,将未使用的输入的梯度设置为零,而不是 None。这在计算高阶导数时很有用。如果materialize_grads
为True
且allow_unused
为False
,则会引发错误。默认值为False
。
- 返回类型