注意
点击 此处 下载完整的示例代码
torch.autograd 入门指南¶
torch.autograd
是 PyTorch 的自动微分引擎,它为神经网络训练提供动力。在本节中,您将对 autograd 如何帮助神经网络进行训练有一个概念上的理解。
背景¶
神经网络 (NN) 是嵌套函数的集合,这些函数在某些输入数据上执行。这些函数由 *参数*(包括权重和偏差)定义,在 PyTorch 中,这些参数存储在张量中。
训练 NN 分为两个步骤
**前向传播**:在前向传播中,NN 对正确的输出做出最佳猜测。它将输入数据通过其每个函数来进行此猜测。
**反向传播**:在反向传播中,NN 根据其猜测中的误差调整其参数。它通过从输出向后遍历来实现这一点,收集误差相对于函数参数的导数(*梯度*),并使用梯度下降优化参数。有关反向传播的更详细的演练,请查看来自 3Blue1Brown 的此 视频。
在 PyTorch 中的使用¶
让我们看一下单个训练步骤。在此示例中,我们从 torchvision
加载预训练的 resnet18 模型。我们创建一个随机数据张量来表示一个具有 3 个通道、64 的高度和宽度以及相应的 label
的单个图像,该 label
初始化为一些随机值。预训练模型中的标签形状为 (1,1000)。
注意
本教程仅适用于 CPU,不适用于 GPU 设备(即使张量已移动到 CUDA)。
import torch
from torchvision.models import resnet18, ResNet18_Weights
model = resnet18(weights=ResNet18_Weights.DEFAULT)
data = torch.rand(1, 3, 64, 64)
labels = torch.rand(1, 1000)
Downloading: "https://download.pytorch.org/models/resnet18-f37072fd.pth" to /var/lib/ci-user/.cache/torch/hub/checkpoints/resnet18-f37072fd.pth
0%| | 0.00/44.7M [00:00<?, ?B/s]
47%|####6 | 20.9M/44.7M [00:00<00:00, 218MB/s]
95%|#########4| 42.2M/44.7M [00:00<00:00, 221MB/s]
100%|##########| 44.7M/44.7M [00:00<00:00, 219MB/s]
接下来,我们将输入数据通过模型的每一层进行传递以做出预测。这就是**前向传播**。
prediction = model(data) # forward pass
我们使用模型的预测结果和相应的标签来计算误差(loss
)。下一步是将此误差反向传播到网络中。当我们在误差张量上调用 .backward()
时,会启动反向传播。然后,Autograd 会计算并存储每个模型参数的梯度,并将梯度存储在参数的 .grad
属性中。
loss = (prediction - labels).sum()
loss.backward() # backward pass
接下来,我们加载一个优化器,在本例中为学习率为 0.01 并带有 动量 为 0.9 的 SGD。我们将模型的所有参数注册到优化器中。
optim = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)
最后,我们调用 .step()
来启动梯度下降。优化器根据存储在 .grad
中的梯度调整每个参数。
optim.step() #gradient descent
至此,您已拥有训练神经网络所需的一切。以下部分详细介绍了 autograd 的工作原理 - 您可以跳过它们。
Autograd 中的微分¶
让我们看看 autograd
如何收集梯度。我们创建了两个张量 a
和 b
,并将其 requires_grad
设置为 True
。这向 autograd
发出信号,表明对它们的每个操作都应进行跟踪。
import torch
a = torch.tensor([2., 3.], requires_grad=True)
b = torch.tensor([6., 4.], requires_grad=True)
我们从 a
和 b
创建另一个张量 Q
。
假设 a
和 b
是 NN 的参数,Q
是误差。在 NN 训练中,我们想要误差相对于参数的梯度,即
当我们在 Q
上调用 .backward()
时,autograd 会计算这些梯度并将它们存储在相应张量的 .grad
属性中。
我们需要在 Q.backward()
中显式传递一个 gradient
参数,因为它是向量。 gradient
是一个与 Q
形状相同的张量,它表示 Q 相对于自身(即 Q
)的梯度。
等效地,我们也可以将 Q 聚合为标量并隐式调用反向传播,例如 Q.sum().backward()
。
external_grad = torch.tensor([1., 1.])
Q.backward(gradient=external_grad)
梯度现在存储在 a.grad
和 b.grad
中。
tensor([True, True])
tensor([True, True])
可选阅读 - 使用 autograd
进行向量微积分¶
在数学上,如果您有一个向量值函数 \(\vec{y}=f(\vec{x})\),则 \(\vec{y}\) 相对于 \(\vec{x}\) 的梯度是雅可比矩阵 \(J\)
一般来说,torch.autograd
是一个计算向量-雅可比积的引擎。也就是说,给定任何向量 \(\vec{v}\),计算乘积 \(J^{T}\cdot \vec{v}\)
如果 \(\vec{v}\) 恰好是标量函数 \(l=g\left(\vec{y}\right)\) 的梯度
然后根据链式法则,向量-雅可比积将是 \(l\) 相对于 \(\vec{x}\) 的梯度
我们在上述示例中使用了向量-雅可比积的这种特性; external_grad
表示 \(\vec{v}\)。
计算图¶
从概念上讲,autograd 会记录数据(张量)和所有执行的操作(以及生成的新的张量),并将它们存储在一个由 Function 对象组成的有向无环图 (DAG) 中。在此 DAG 中,叶子是输入张量,根是输出张量。通过从根到叶追溯此图,您可以使用链式法则自动计算梯度。
在前向传播中,autograd 同时执行两件事
运行请求的操作以计算结果张量,以及
在 DAG 中维护操作的梯度函数。
当在 DAG 根上调用 .backward()
时,反向传播开始。然后,autograd
会
计算每个
.grad_fn
的梯度,将它们累积到相应张量的
.grad
属性中,以及使用链式法则,将所有梯度传播到叶子张量。
以下是我们示例中 DAG 的可视化表示。在图中,箭头表示前向传播的方向。节点表示前向传播中每个操作的反向函数。蓝色的叶子节点表示我们的叶子张量 a
和 b
。
注意
**PyTorch 中的 DAG 是动态的**需要注意的是,图是从头开始重新创建的;在每次 .backward()
调用后,autograd 都会开始填充一个新的图。这正是允许您在模型中使用控制流语句的原因;如果需要,您可以在每次迭代中更改形状、大小和操作。
从 DAG 中排除¶
torch.autograd
会跟踪所有其 requires_grad
标志设置为 True
的张量上的操作。对于不需要梯度的张量,将此属性设置为 False
会将其从梯度计算 DAG 中排除。
即使只有一个输入张量具有 requires_grad=True
,操作的输出张量也需要梯度。
x = torch.rand(5, 5)
y = torch.rand(5, 5)
z = torch.rand((5, 5), requires_grad=True)
a = x + y
print(f"Does `a` require gradients?: {a.requires_grad}")
b = x + z
print(f"Does `b` require gradients?: {b.requires_grad}")
Does `a` require gradients?: False
Does `b` require gradients?: True
在 NN 中,不计算梯度的参数通常称为**冻结参数**。如果您事先知道不需要这些参数的梯度,则“冻结”模型的一部分很有用(这可以通过减少 autograd 计算来提供一些性能优势)。
在微调中,我们冻结模型的大部分,通常只修改分类器层以对新标签进行预测。让我们来看一个简单的示例来演示这一点。与之前一样,我们加载一个预训练的 resnet18 模型,并冻结所有参数。
from torch import nn, optim
model = resnet18(weights=ResNet18_Weights.DEFAULT)
# Freeze all the parameters in the network
for param in model.parameters():
param.requires_grad = False
假设我们想在一个具有 10 个标签的新数据集上微调模型。在 resnet 中,分类器是最后一个线性层 model.fc
。我们可以简单地用一个新的线性层(默认情况下未冻结)替换它,该层充当我们的分类器。
现在,模型中的所有参数(除了 model.fc
的参数)都被冻结了。唯一计算梯度的参数是 model.fc
的权重和偏差。
# Optimize only the classifier
optimizer = optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)
请注意,虽然我们在优化器中注册了所有参数,但唯一计算梯度(并在梯度下降中更新)的参数是分类器的权重和偏差。
相同的排除功能在 torch.no_grad() 中作为上下文管理器可用。
进一步阅读¶
**脚本的总运行时间:**(0 分钟 0.822 秒)