快捷方式

Fold

class torch.nn.Fold(output_size, kernel_size, dilation=1, padding=0, stride=1)[源代码]

将滑动局部块的数组组合成一个大的包含张量。

考虑一个包含滑动局部块(例如,图像块)的批处理 input 张量,其形状为 (N,C×(kernel_size),L)(N, C \times \prod(\text{kernel\_size}), L), 其中 NN 是批处理维度,C×(kernel_size)C \times \prod(\text{kernel\_size}) 是块内的值的数量(一个块具有 (kernel_size)\prod(\text{kernel\_size}) 个空间位置,每个位置包含一个 CC-通道向量),以及 LL 是块的总数。(这与 Unfold 的输出形状完全相同。)此操作通过对重叠的值求和,将这些局部块组合成形状为 (N,C,output_size[0],output_size[1],)(N, C, \text{output\_size}[0], \text{output\_size}[1], \dots) 的大的 output 张量。类似于 Unfold,参数必须满足

L=doutput_size[d]+2×padding[d]dilation[d]×(kernel_size[d]1)1stride[d]+1,L = \prod_d \left\lfloor\frac{\text{output\_size}[d] + 2 \times \text{padding}[d] % - \text{dilation}[d] \times (\text{kernel\_size}[d] - 1) - 1}{\text{stride}[d]} + 1\right\rfloor,

其中 dd 遍历所有空间维度。

  • output_size 描述了滑动局部块所包含的大张量的空间形状。当多个输入形状映射到相同数量的滑动块时(例如,当 stride > 0 时),它有助于解决歧义。

paddingstridedilation 参数指定如何检索滑动块。

  • stride 控制滑动块的步长。

  • padding 控制在重塑之前,每个维度两侧添加的隐式零填充的数量,填充数量为 padding

  • dilation 控制内核点之间的间距;也称为 à trous 算法。它难以描述,但此 链接dilation 的作用进行了很好的可视化。

参数
  • output_size (int元组) – 输出的空间维度的形状(即 output.sizes()[2:]

  • kernel_size (int元组) – 滑动块的大小

  • dilation (int元组, 可选) – 控制邻域内元素步长的参数。默认值:1

  • padding (int元组, 可选) – 在输入两侧添加的隐式零填充。默认值:0

  • stride (int元组) – 输入空间维度中滑动块的步长。默认值:1

  • 如果 output_sizekernel_sizedilationpaddingstride 是一个整数或长度为 1 的元组,则其值将复制到所有空间维度。

  • 对于两个输出空间维度的案例,此操作有时称为 col2im

注意

Fold 通过将所有包含块中的所有值相加来计算结果大张量中的每个组合值。Unfold 通过从大张量中复制来提取局部块中的值。因此,如果块重叠,则它们不是彼此的逆。

通常,折叠和展开操作如下所示。考虑使用相同参数创建的 FoldUnfold 实例

>>> fold_params = dict(kernel_size=..., dilation=..., padding=..., stride=...)
>>> fold = nn.Fold(output_size=..., **fold_params)
>>> unfold = nn.Unfold(**fold_params)

然后对于任何(受支持的)input 张量,以下等式成立

fold(unfold(input)) == divisor * input

其中 divisor 是一个张量,它仅取决于 input 的形状和数据类型

>>> input_ones = torch.ones(input.shape, dtype=input.dtype)
>>> divisor = fold(unfold(input_ones))

divisor 张量不包含零元素时,foldunfold 操作是彼此的逆(直到常数除数)。

警告

目前,仅支持未批处理(3D)或已批处理(4D)的图像类输出张量。

形状
  • 输入:(N,C×(kernel_size),L)(N, C \times \prod(\text{kernel\_size}), L)(C×(kernel_size),L)(C \times \prod(\text{kernel\_size}), L)

  • 输出:(N,C,output_size[0],output_size[1],)(N, C, \text{output\_size}[0], \text{output\_size}[1], \dots)(C,output_size[0],output_size[1],)(C, \text{output\_size}[0], \text{output\_size}[1], \dots),如上所述。

示例

>>> fold = nn.Fold(output_size=(4, 5), kernel_size=(2, 2))
>>> input = torch.randn(1, 3 * 2 * 2, 12)
>>> output = fold(input)
>>> output.size()
torch.Size([1, 3, 4, 5])

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发人员的深度教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源