算子¶

torchvision.ops 实现了计算机视觉特定的算子、损失函数和层。

注意

所有算子都原生支持 TorchScript。

检测与分割算子¶

以下算子执行目标检测和分割模型所需的前处理和后处理。

`batched_nms`(boxes, scores, idxs, iou_threshold)	批量执行非极大值抑制。
`masks_to_boxes`(masks)	计算给定掩码周围的边界框。
`nms`(boxes, scores, iou_threshold)	根据边界框的交并比 (IoU) 对边界框执行非极大值抑制 (NMS)。
`roi_align`(input, boxes, output_size[, ...])	执行 Mask R-CNN 中描述的使用平均池化的感兴趣区域 (RoI) 对齐算子。
`roi_pool`(input, boxes, output_size[, ...])	执行 Fast R-CNN 中描述的感兴趣区域 (RoI) 池化算子
`ps_roi_align`(input, boxes, output_size[, ...])	执行 Light-Head R-CNN 中提到的位置敏感感兴趣区域 (RoI) 对齐算子。
`ps_roi_pool`(input, boxes, output_size[, ...])	执行 R-FCN 中描述的位置敏感感兴趣区域 (RoI) 池化算子

`FeaturePyramidNetwork`(in_channels_list, ...)	在特征图集合之上添加 FPN 的模块。
`MultiScaleRoIAlign`(featmap_names, ...[, ...])	多尺度 RoIAlign 池化，对于有无 FPN 的检测都很有用。
`RoIAlign`(output_size, spatial_scale, ...[, ...])	参见 `roi_align()`。
`RoIPool`(output_size, spatial_scale)	参见 `roi_pool()`。
`PSRoIAlign`(output_size, spatial_scale, ...)	参见 `ps_roi_align()`。
`PSRoIPool`(output_size, spatial_scale)	参见 `ps_roi_pool()`。

这些工具函数对边界框执行各种操作。

`box_area`(boxes)	计算一组边界框的面积，这些边界框由其 (x1, y1, x2, y2) 坐标指定。
`box_convert`(boxes, in_fmt, out_fmt)	将 `torch.Tensor` 边界框从给定的 `in_fmt` 转换为 `out_fmt`。
`box_iou`(boxes1, boxes2)	返回两组边界框之间的交并比 (Jaccard index)。
`clip_boxes_to_image`(boxes, size)	裁剪边界框，使其位于大小为 `size` 的图像内部。
`complete_box_iou`(boxes1, boxes2[, eps])	返回两组边界框之间的完全交并比 (Jaccard index)。
`distance_box_iou`(boxes1, boxes2[, eps])	返回两组边界框之间的距离交并比 (Jaccard index)。
`generalized_box_iou`(boxes1, boxes2)	返回两组边界框之间的广义交并比 (Jaccard index)。
`remove_small_boxes`(boxes, min_size)	移除 `boxes` 中至少有一边长度小于 `min_size` 的所有边界框。

实现了以下计算机视觉特定的损失函数

`complete_box_iou_loss`(boxes1, boxes2[, ...])	梯度友好的 IoU 损失，并在边界框不重叠时施加额外的非零惩罚。
`distance_box_iou_loss`(boxes1, boxes2[, ...])	梯度友好的 IoU 损失，并在边界框中心之间的距离不为零时施加额外的非零惩罚。
`generalized_box_iou_loss`(boxes1, boxes2[, ...])	梯度友好的 IoU 损失，并在边界框不重叠时施加额外的非零惩罚，惩罚大小随最小外接框的尺寸变化。
`sigmoid_focal_loss`(inputs, targets[, alpha, ...])	RetinaNet 中用于密集检测的损失函数：https://arxiv.org/abs/1708.02002。

TorchVision 提供了常用的构建块作为层

`Conv2dNormActivation`(in_channels, ...)	用于 Convolution2d-Normalization-Activation 块的可配置模块。
`Conv3dNormActivation`(in_channels, ...)	用于 Convolution3d-Normalization-Activation 块的可配置模块。
`DeformConv2d`(in_channels, out_channels, ...)	参见 `deform_conv2d()`。
`DropBlock2d`(p, block_size[, inplace, eps])	参见 `drop_block2d()`。
`DropBlock3d`(p, block_size[, inplace, eps])	参见 `drop_block3d()`。
`FrozenBatchNorm2d`(num_features[, eps])	批次统计量和仿射参数固定的 BatchNorm2d
`MLP`(in_channels, hidden_channels, ...)	此块实现了多层感知器 (MLP) 模块。
`Permute`(dims)	此模块返回张量输入的视图，其维度已进行排列。
`SqueezeExcitation`(input_channels, ...)	此块实现了来自 https://arxiv.org/abs/1709.01507 的 Squeeze-and-Excitation 块（参见图。
`StochasticDepth`(p, mode)	参见 `stochastic_depth()`。

`deform_conv2d`(input, offset, weight[, bias, ...])	如果 `mask` 不为 `None`，则执行《可变形 ConvNets v2：更具可变形性，更好的结果》中描述的可变形卷积 v2；如果 `mask` 为 `None`，则执行《可变形卷积网络》中描述的可变形卷积。
`drop_block2d`(input, p, block_size[, ...])	实现了来自《DropBlock：一种用于卷积网络的正则化方法》 <https://arxiv.org/abs/1810.12890> 的 DropBlock2d。
`drop_block3d`(input, p, block_size[, ...])	实现了来自《DropBlock：一种用于卷积网络的正则化方法》 <https://arxiv.org/abs/1810.12890> 的 DropBlock3d。
`stochastic_depth`(input, p, mode[, training])	实现了来自《带有随机深度的深度网络》的随机深度，用于随机丢弃残差架构的残差分支。