Fold¶

class torch.nn.Fold(output_size, kernel_size, dilation=1, padding=0, stride=1)[源][源]¶

将一组滑动的局部块组合成一个大的包含张量。

考虑一个包含滑动局部块（例如图像块）的批量 input 张量，其形状为 $(N, C \times \prod(\text{kernel\_size}), L)$ ，其中 $N$ 是批量维度， $C \times \prod(\text{kernel\_size})$ 是块内的值数量（一个块有 $\prod(\text{kernel\_size})$ 个空间位置，每个位置包含一个 $C$ 通道向量）， $L$ 是块的总数量。（这与 Unfold 的输出形状完全相同。）此操作通过对重叠的值求和，将这些局部块组合到形状为 $(N, C, \text{output\_size}[0], \text{output\_size}[1], \dots)$ 的大 output 张量中。与 Unfold 类似，参数必须满足

L = \prod_d \left\lfloor\frac{\text{output\_size}[d] + 2 \times \text{padding}[d] % - \text{dilation}[d] \times (\text{kernel\_size}[d] - 1) - 1}{\text{stride}[d]} + 1\right\rfloor,

其中 $d$ 表示所有空间维度。

output_size 描述了包含滑动局部块的大张量的空间形状。当多个输入形状映射到相同数量的滑动块时（例如，stride > 0 时），它有助于解决歧义。

padding、stride 和 dilation 参数指定了如何检索滑动块。

stride 控制滑动块的步长。
padding 控制在重塑之前，每个维度在两侧添加 padding 数量的隐式零填充。
dilation 控制核点之间的间距；也称为 à trous 算法。这很难描述，但这个链接有一个很好的可视化展示了 dilation 的作用。

参数

output_size (int 或 tuple) – 输出张量空间维度（即 output.sizes()[2:]）的形状
kernel_size (int 或 tuple) – 滑动块的大小
dilation (int 或 tuple, 可选) – 控制邻域内元素步长的参数。默认值: 1
padding (int 或 tuple, 可选) – 在输入两侧添加的隐式零填充数量。默认值: 0
stride (int 或 tuple) – 输入空间维度中滑动块的步长。默认值: 1

如果 output_size、kernel_size、dilation、padding 或 stride 是 int 或长度为 1 的 tuple，则其值将应用于所有空间维度。
对于两个输出空间维度的情况，此操作有时称为 col2im。

注意

Fold 通过对所有包含块中的所有值求和来计算结果大张量中的每个组合值。Unfold 通过从大张量复制来提取局部块中的值。因此，如果块重叠，它们不是彼此的逆运算。

通常，折叠 (folding) 和展开 (unfolding) 操作之间的关系如下。考虑使用相同参数创建的 Fold 和 Unfold 实例

>>> fold_params = dict(kernel_size=..., dilation=..., padding=..., stride=...)
>>> fold = nn.Fold(output_size=..., **fold_params)
>>> unfold = nn.Unfold(**fold_params)

那么对于任何（支持的）input 张量，以下等式成立

fold(unfold(input)) == divisor * input

其中 divisor 是一个仅取决于 input 形状和 dtype 的张量

>>> input_ones = torch.ones(input.shape, dtype=input.dtype)
>>> divisor = fold(unfold(input_ones))

当 divisor 张量不包含零元素时，fold 和 unfold 操作互为逆运算（常数因子除外）。

警告

目前，仅支持非批量 (3D) 或批量 (4D) 图像状输出张量。

形状

输入: $(N, C \times \prod(\text{kernel\_size}), L)$ 或 $(C \times \prod(\text{kernel\_size}), L)$
输出: $(N, C, \text{output\_size}[0], \text{output\_size}[1], \dots)$ 或 $(C, \text{output\_size}[0], \text{output\_size}[1], \dots)$ 如上所述

示例

>>> fold = nn.Fold(output_size=(4, 5), kernel_size=(2, 2))
>>> input = torch.randn(1, 3 * 2 * 2, 12)
>>> output = fold(input)
>>> output.size()
torch.Size([1, 3, 4, 5])

Fold¶

文档

教程

资源