Transforms v2 入门¶

注意

在 Colab 上尝试或前往末尾下载完整的示例代码。

本示例将阐述使用新的 torchvision.transforms.v2 API 入门所需了解的一切。我们将涵盖图像分类等简单任务，以及目标检测/分割等更高级的任务。

首先，进行一些设置

from pathlib import Path
import torch
import matplotlib.pyplot as plt
plt.rcParams["savefig.bbox"] = 'tight'

from torchvision.transforms import v2
from torchvision.io import decode_image

torch.manual_seed(1)

# If you're trying to run that on Colab, you can download the assets and the
# helpers from https://github.com/pytorch/vision/tree/main/gallery/
from helpers import plot
img = decode_image(str(Path('../assets') / 'astronaut.jpg'))
print(f"{type(img) = }, {img.dtype = }, {img.shape = }")

type(img) = <class 'torch.Tensor'>, img.dtype = torch.uint8, img.shape = torch.Size([3, 512, 512])

基础知识¶

Torchvision 变换的行为类似于常规的 torch.nn.Module（事实上，它们大多数都是）：实例化一个变换，传入输入，获取变换后的输出

transform = v2.RandomCrop(size=(224, 224))
out = transform(img)

plot([img, out])

我只做图像分类¶

如果您只关心图像分类，事情就非常简单。一个基本的分类流水线可能看起来像这样

transforms = v2.Compose([
    v2.RandomResizedCrop(size=(224, 224), antialias=True),
    v2.RandomHorizontalFlip(p=0.5),
    v2.ToDtype(torch.float32, scale=True),
    v2.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
out = transforms(img)

plot([img, out])

这样的变换流水线通常作为数据集的 transform 参数传入，例如 ImageNet(..., transform=transforms)。

差不多就是这样了。在此基础上，阅读我们的主文档以了解更多推荐实践和约定，或探索更多示例，例如如何使用数据增强变换，如CutMix 和 MixUp。

注意

如果您已经在使用 torchvision.transforms v1 API，我们建议切换到新的 v2 变换。这非常容易：v2 变换与 v1 API 完全兼容，因此您只需要更改导入即可！

检测、分割、视频¶

新的 Torchvision 变换位于 torchvision.transforms.v2 命名空间中，支持图像分类之外的任务：它们还可以变换边界框、分割/检测掩码或视频。

让我们简要地看一下带有边界框的检测示例。

from torchvision import tv_tensors  # we'll describe this a bit later, bare with us

boxes = tv_tensors.BoundingBoxes(
    [
        [15, 10, 370, 510],
        [275, 340, 510, 510],
        [130, 345, 210, 425]
    ],
    format="XYXY", canvas_size=img.shape[-2:])

transforms = v2.Compose([
    v2.RandomResizedCrop(size=(224, 224), antialias=True),
    v2.RandomPhotometricDistort(p=1),
    v2.RandomHorizontalFlip(p=1),
])
out_img, out_boxes = transforms(img, boxes)
print(type(boxes), type(out_boxes))

plot([(img, boxes), (out_img, out_boxes)])

<class 'torchvision.tv_tensors._bounding_boxes.BoundingBoxes'> <class 'torchvision.tv_tensors._bounding_boxes.BoundingBoxes'>

上面的例子侧重于目标检测。但是，如果我们在对象分割或语义分割中有掩码（torchvision.tv_tensors.Mask），或视频（torchvision.tv_tensors.Video），我们可以以完全相同的方式将它们传递给变换。

现在您可能有一些问题：这些 TVTensors 是什么，如何使用它们，以及这些变换的预期输入/输出是什么？我们将在接下来的章节中回答这些问题。

什么是 TVTensors？¶

TVTensors 是 torch.Tensor 的子类。可用的 TVTensors 包括 Image、BoundingBoxes、Mask 和 Video。

TVTensors 的外观和感觉就像普通的张量——它们**就是**张量。普通 torch.Tensor 上支持的一切操作，如 .sum() 或任何 torch.* 算子，也都适用于 TVTensor

img_dp = tv_tensors.Image(torch.randint(0, 256, (3, 256, 256), dtype=torch.uint8))

print(f"{isinstance(img_dp, torch.Tensor) = }")
print(f"{img_dp.dtype = }, {img_dp.shape = }, {img_dp.sum() = }")

isinstance(img_dp, torch.Tensor) = True
img_dp.dtype = torch.uint8, img_dp.shape = torch.Size([3, 256, 256]), img_dp.sum() = tensor(25087958)

这些 TVTensor 类是变换的核心：为了变换给定的输入，变换首先查看对象的**类**，并据此分派到相应的实现。

目前您无需了解更多关于 TVTensors 的信息，但希望深入学习的高级用户可以参考TVTensors FAQ。

我应该传入什么作为输入？¶

上面我们看到了两个示例：一个将单个图像作为输入，即 out = transforms(img)；另一个同时传入图像和边界框，即 out_img, out_boxes = transforms(img, boxes)。

事实上，变换支持**任意输入结构**。输入可以是单个图像、元组、任意嵌套的字典……几乎任何东西。输出将返回相同的结构。下面我们使用相同的检测变换，但传入一个元组 (image, target_dict) 作为输入，并得到相同的结构作为输出

target = {
    "boxes": boxes,
    "labels": torch.arange(boxes.shape[0]),
    "this_is_ignored": ("arbitrary", {"structure": "!"})
}

# Re-using the transforms and definitions from above.
out_img, out_target = transforms(img, target)

plot([(img, target["boxes"]), (out_img, out_target["boxes"])])
print(f"{out_target['this_is_ignored']}")

('arbitrary', {'structure': '!'})

我们传入了一个元组，所以返回的也是一个元组，第二个元素是变换后的目标字典。变换并不真正关心输入的结构；如上所述，它们只关心对象的**类型**，并据此进行变换。

字符串或整数等*外部*对象会被直接传递。例如，如果您在调试时想将路径与每个样本关联起来，这会很有用！

注意

免责声明 本说明稍微有点高级，首次阅读时可以安全跳过。

纯 torch.Tensor 对象通常被视为图像（或者对于视频专用变换被视为视频）。事实上，您可能已经注意到，在上面的代码中，我们根本没有使用 Image 类，但我们的图像仍然得到了正确的变换。变换遵循以下逻辑来确定纯 Tensor 是应该被视为图像（或视频）还是直接忽略

如果输入中存在 Image、Video 或 PIL.Image.Image 实例，则所有其他纯张量都会被直接传递。
如果不存在 Image 或 Video 实例，则只有第一个纯 torch.Tensor 将被视为图像或视频进行变换，而所有其他纯张量都会被直接传递。这里的“第一个”是指“深度优先遍历中的第一个”。

这就是上面检测示例中发生的情况：第一个纯张量是图像，因此它得到了正确的变换，而所有其他纯张量实例，如 labels，都被直接传递了（尽管标签仍然可以通过某些变换进行变换，例如 SanitizeBoundingBoxes！）。

变换与数据集的兼容性¶

简单来说，数据集的输出必须与变换的输入相对应。如何实现取决于您是使用 torchvision 的内置数据集，还是您自己的自定义数据集。

使用内置数据集¶

如果您只进行图像分类，则无需执行任何操作。只需使用数据集的 transform 参数，例如 ImageNet(..., transform=transforms)，即可开始。

Torchvision 还支持用于目标检测或分割的数据集，例如 torchvision.datasets.CocoDetection。这些数据集早于 torchvision.transforms.v2 模块和 TVTensors 的出现，因此它们默认不返回 TVTensors。

强制这些数据集返回 TVTensors 并使其与 v2 变换兼容的一种简单方法是使用 torchvision.datasets.wrap_dataset_for_transforms_v2() 函数

from torchvision.datasets import CocoDetection, wrap_dataset_for_transforms_v2

dataset = CocoDetection(..., transforms=my_transforms)
dataset = wrap_dataset_for_transforms_v2(dataset)
# Now the dataset returns TVTensors!

使用您自己的数据集¶

如果您有自定义数据集，则需要将您的对象转换为相应的 TVTensor 类。创建 TVTensor 实例非常容易，更多详细信息请参阅如何构建 TVTensor？。

您可以在两个主要位置实现该转换逻辑

在数据集的 __getitem__ 方法的末尾，返回样本之前（或者通过继承数据集类）。
作为您的变换流水线的第一步

无论哪种方式，逻辑都将取决于您的具体数据集。

脚本总运行时间： (0 分钟 0.628 秒)

由 Sphinx-Gallery 生成的图集