wrap_dataset_for_transforms_v2¶

torchvision.datasets.wrap_dataset_for_transforms_v2(dataset, target_keys=None)[source]¶

包装一个 torchvision.dataset 以便与 torchvision.transforms.v2 一起使用。

示例

>>> dataset = torchvision.datasets.CocoDetection(...)
>>> dataset = wrap_dataset_for_transforms_v2(dataset)

注意

目前，仅支持最常用的数据集。此外，该包装器仅支持完全受 torchvision.transforms.v2 支持的数据集配置。如果您遇到错误提示您为所需的数据集或配置向 torchvision 提出问题，请务必这样做。

数据集样本根据以下描述进行包装。

特殊情况

CocoDetection：包装器不会将目标作为字典列表返回，而是返回字典列表。此外，还添加了键值对 "boxes"（以 XYXY 坐标格式）、"masks" 和 "labels"，并将数据包装在相应的 torchvision.tv_tensors 中。原始键被保留。如果省略 target_keys，则仅返回 "image_id"、"boxes" 和 "labels" 的值。

VOCDetection：键值对 "boxes" 和 "labels" 被添加到目标中，并将数据包装在相应的 torchvision.tv_tensors 中。原始键被保留。如果省略 target_keys，则仅返回 "boxes" 和 "labels" 的值。

CelebA：target_type="bbox" 的目标被转换为 XYXY 坐标格式，并包装到 BoundingBoxes tv_tensor 中。

Kitti：包装器不会将目标作为字典列表返回，而是返回字典列表。此外，还添加了键值对 "boxes" 和 "labels"，并将数据包装在相应的 torchvision.tv_tensors 中。原始键被保留。如果省略 target_keys，则仅返回 "boxes" 和 "labels" 的值。

OxfordIIITPet：target_type="segmentation" 的目标被包装到 Mask tv_tensor 中。

Cityscapes：target_type="semantic" 的目标被包装到 Mask tv_tensor 中。target_type="instance" 的目标被替换为一个字典，其中包含键值对 "masks"（作为 Mask tv_tensor）和 "labels"。

WIDERFace：目标中键 "bbox" 的值被转换为 XYXY 坐标格式，并包装到 BoundingBoxes tv_tensor 中。

图像分类数据集

对于图像分类数据集，此包装器是空操作，因为它们已完全受 torchvision.transforms 支持，因此 torchvision.transforms.v2 不需要更改。

分割数据集

分割数据集，例如 VOCSegmentation，返回 PIL.Image.Image 的二元组。此包装器保持图像不变（第一项），同时将分割掩码包装到 Mask 中（第二项）。

视频分类数据集

视频分类数据集，例如 Kinetics，返回一个三元组，其中包含视频和音频的 torch.Tensor 和作为标签的 int。此包装器将视频包装到 Video 中，同时保持其他项不变。

注意

仅支持使用 output_format="TCHW" 构建的数据集，因为 torchvision.transforms.v2 不支持替代的 output_format="THWC"。

参数:

dataset – 要包装以与 transforms v2 兼容的数据集实例。
target_keys – 如果目标是字典，则返回的目标键。如果为 None（默认值），则选定的键特定于数据集。如果为 "all"，则返回完整的目标。也可以是字符串的集合，用于细粒度访问。目前仅支持 CocoDetection、VOCDetection、Kitti 和 WIDERFace。有关详细信息，请参见上文。

使用 wrap_dataset_for_transforms_v2 的示例

transforms v2 入门

transforms v2：端到端对象检测/分割示例

wrap_dataset_for_transforms_v2¶

文档

教程

资源