快捷方式

torch.nested

简介

警告

嵌套张量的 PyTorch API 处于原型阶段,在不久的将来会发生变化。

NestedTensor 允许用户将张量列表打包到单个高效的数据结构中。

对输入张量的唯一约束是它们的维度必须匹配。

这可以更有效地表示元数据,并访问专门构建的内核。

NestedTensor 的一个应用是在各种领域中表达序列数据。传统方法是填充可变长度序列,而 NestedTensor 使用户能够绕过填充。在嵌套张量上调用操作的 API 与常规 torch.Tensor 的 API 没有区别,这应允许与现有模型无缝集成,主要区别在于 输入的构造

由于这是一个原型功能,因此 支持的操作 仍然有限。但是,我们欢迎问题、功能请求和贡献。有关贡献的更多信息,请参见 此 Readme

构造

构造非常简单,涉及将张量列表传递给 torch.nested.nested_tensor 构造函数。

>>> a, b = torch.arange(3), torch.arange(5) + 3
>>> a
tensor([0, 1, 2])
>>> b
tensor([3, 4, 5, 6, 7])
>>> nt = torch.nested.nested_tensor([a, b])
>>> nt
nested_tensor([
  tensor([0, 1, 2]),
    tensor([3, 4, 5, 6, 7])
    ])

可以通过常用的关键字参数选择数据类型、设备以及是否需要梯度。

>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32, device="cuda", requires_grad=True)
>>> nt
nested_tensor([
  tensor([0., 1., 2.], device='cuda:0', requires_grad=True),
  tensor([3., 4., 5., 6., 7.], device='cuda:0', requires_grad=True)
], device='cuda:0', requires_grad=True)

torch.as_tensor 类似,torch.nested.as_nested_tensor 可用于保留从传递给构造函数的张量中的 autograd 历史记录。有关更多信息,请参阅有关 嵌套张量构造函数和转换函数 的部分。

为了形成有效的 NestedTensor,所有传递的张量都需要在维度上匹配,但其他属性都不需要。

>>> a = torch.randn(3, 50, 70) # image 1
>>> b = torch.randn(3, 128, 64) # image 2
>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32)
>>> nt.dim()
4

如果其中一个维度不匹配,构造函数将抛出错误。

>>> a = torch.randn(50, 128) # text 1
>>> b = torch.randn(3, 128, 64) # image 2
>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
RuntimeError: All Tensors given to nested_tensor must have the same dimension. Found dimension 3 for Tensor at index 1 and dimension 2 for Tensor at index 0.

请注意,传递的张量正在被复制到连续的内存块中。生成的 NestedTensor 分配新内存来存储它们,并且不保留引用。

目前,我们仅支持一级嵌套,即简单的、平面的张量列表。将来,我们可以添加对多级嵌套的支持,例如完全由张量列表组成的列表。请注意,对于此扩展,重要的是在条目之间保持均匀的嵌套级别,以便生成的 NestedTensor 具有明确定义的维度。如果您需要此功能,请随时打开功能请求,以便我们可以跟踪并相应地进行计划。

size

即使 NestedTensor 不支持 .size()(或 .shape),如果维度 i 是规则的,它也支持 .size(i)

>>> a = torch.randn(50, 128) # text 1
>>> b = torch.randn(32, 128) # text 2
>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32)
>>> nt.size(0)
2
>>> nt.size(1)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
RuntimeError: Given dimension 1 is irregular and does not have a size.
>>> nt.size(2)
128

如果所有维度都是规则的,则 NestedTensor 在语义上应与常规 torch.Tensor 没有区别。

>>> a = torch.randn(20, 128) # text 1
>>> nt = torch.nested.nested_tensor([a, a], dtype=torch.float32)
>>> nt.size(0)
2
>>> nt.size(1)
20
>>> nt.size(2)
128
>>> torch.stack(nt.unbind()).size()
torch.Size([2, 20, 128])
>>> torch.stack([a, a]).size()
torch.Size([2, 20, 128])
>>> torch.equal(torch.stack(nt.unbind()), torch.stack([a, a]))
True

将来,我们可能会使其更容易检测到这种情况并无缝转换。

如果您需要此功能(或任何其他相关功能),请打开功能请求。

unbind

unbind 允许您检索成分的视图。

>>> import torch
>>> a = torch.randn(2, 3)
>>> b = torch.randn(3, 4)
>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32)
>>> nt
nested_tensor([
  tensor([[ 1.2286, -1.2343, -1.4842],
          [-0.7827,  0.6745,  0.0658]]),
  tensor([[-1.1247, -0.4078, -1.0633,  0.8083],
          [-0.2871, -0.2980,  0.5559,  1.9885],
          [ 0.4074,  2.4855,  0.0733,  0.8285]])
])
>>> nt.unbind()
(tensor([[ 1.2286, -1.2343, -1.4842],
        [-0.7827,  0.6745,  0.0658]]), tensor([[-1.1247, -0.4078, -1.0633,  0.8083],
        [-0.2871, -0.2980,  0.5559,  1.9885],
        [ 0.4074,  2.4855,  0.0733,  0.8285]]))
>>> nt.unbind()[0] is not a
True
>>> nt.unbind()[0].mul_(3)
tensor([[ 3.6858, -3.7030, -4.4525],
        [-2.3481,  2.0236,  0.1975]])
>>> nt
nested_tensor([
  tensor([[ 3.6858, -3.7030, -4.4525],
          [-2.3481,  2.0236,  0.1975]]),
  tensor([[-1.1247, -0.4078, -1.0633,  0.8083],
          [-0.2871, -0.2980,  0.5559,  1.9885],
          [ 0.4074,  2.4855,  0.0733,  0.8285]])
])

请注意,nt.unbind()[0] 不是副本,而是底层内存的切片,它表示 NestedTensor 的第一个条目或成分。

嵌套张量构造函数和转换函数

以下函数与嵌套张量相关

torch.nested.nested_tensor(tensor_list, *, dtype=None, layout=None, device=None, requires_grad=False, pin_memory=False)[源代码][源代码]

tensor_list(张量列表)构造没有 autograd 历史记录的嵌套张量(也称为“叶张量”,请参阅 Autograd 机制)。

参数
  • tensor_list (List[array_like]) – 张量列表,或可以传递给 torch.tensor 的任何内容,

  • 维度。 (其中列表中的每个元素都具有相同的) –

关键字参数
  • dtype (torch.dtype, 可选) – 返回的嵌套张量的所需类型。默认值:如果为 None,则与列表中最左侧张量的 torch.dtype 相同。

  • layout (torch.layout, 可选) – 返回的嵌套张量的所需布局。仅支持 strided 和 jagged 布局。默认值:如果为 None,则为 strided 布局。

  • device (torch.device, 可选) – 返回的嵌套张量的所需设备。默认值:如果为 None,则与列表中最左侧张量的 torch.device 相同

  • requires_grad (bool, 可选) – 如果 autograd 应该记录返回的嵌套张量上的操作。默认值:False

  • pin_memory (bool, 可选) – 如果设置,则返回的嵌套张量将分配在固定的内存中。仅适用于 CPU 张量。默认值:False

返回类型

张量

示例

>>> a = torch.arange(3, dtype=torch.float, requires_grad=True)
>>> b = torch.arange(5, dtype=torch.float, requires_grad=True)
>>> nt = torch.nested.nested_tensor([a, b], requires_grad=True)
>>> nt.is_leaf
True
torch.nested.as_nested_tensor(ts, dtype=None, device=None, layout=None)[源代码][源代码]

构造一个嵌套张量,保留来自张量或张量列表/元组的 autograd 历史记录。

如果传递了嵌套张量,则将直接返回它,除非设备/dtype/布局不同。请注意,转换设备/dtype 将导致复制,而此函数当前不支持转换布局。

如果传递了非嵌套张量,则将其视为大小一致的成分批次。如果传递的设备/dtype 与输入的设备/dtype 不同,或者输入是非连续的,则会产生副本。否则,将直接使用输入的存储。

如果提供了张量列表,则在构造嵌套张量期间始终复制列表中的张量。

参数

ts (TensorList[Tensor] 或 Tuple[Tensor]) – 要视为嵌套张量的张量,或具有相同 ndim 的张量列表/元组

关键字参数
  • dtype (torch.dtype, 可选) – 返回的嵌套张量的所需类型。默认值:如果为 None,则与列表中最左侧张量的 torch.dtype 相同。

  • device (torch.device, 可选) – 返回的嵌套张量的所需设备。默认值:如果为 None,则与列表中最左侧张量的 torch.device 相同

  • layout (torch.layout, 可选) – 返回的嵌套张量的所需布局。仅支持 strided 和 jagged 布局。默认值:如果为 None,则为 strided 布局。

返回类型

张量

示例

>>> a = torch.arange(3, dtype=torch.float, requires_grad=True)
>>> b = torch.arange(5, dtype=torch.float, requires_grad=True)
>>> nt = torch.nested.as_nested_tensor([a, b])
>>> nt.is_leaf
False
>>> fake_grad = torch.nested.nested_tensor([torch.ones_like(a), torch.zeros_like(b)])
>>> nt.backward(fake_grad)
>>> a.grad
tensor([1., 1., 1.])
>>> b.grad
tensor([0., 0., 0., 0., 0.])
>>> c = torch.randn(3, 5, requires_grad=True)
>>> nt2 = torch.nested.as_nested_tensor(c)
torch.nested.to_padded_tensor(input, padding, output_size=None, out=None) Tensor

通过填充 input 嵌套张量,返回一个新的(非嵌套)张量。前导条目将填充嵌套数据,而尾随条目将被填充。

警告

to_padded_tensor() 始终复制底层数据,因为嵌套张量和非嵌套张量的内存布局不同。

参数

padding (float) – 尾随条目的填充值。

关键字参数
  • output_size (Tuple[int]) – 输出张量的大小。如果给定,则它必须足够大以包含所有嵌套数据;否则,将通过获取每个维度上每个嵌套子张量的最大大小来推断。

  • out (Tensor, 可选) – 输出张量。

示例

>>> nt = torch.nested.nested_tensor([torch.randn((2, 5)), torch.randn((3, 4))])
nested_tensor([
  tensor([[ 1.6862, -1.1282,  1.1031,  0.0464, -1.3276],
          [-1.9967, -1.0054,  1.8972,  0.9174, -1.4995]]),
  tensor([[-1.8546, -0.7194, -0.2918, -0.1846],
          [ 0.2773,  0.8793, -0.5183, -0.6447],
          [ 1.8009,  1.8468, -0.9832, -1.5272]])
])
>>> pt_infer = torch.nested.to_padded_tensor(nt, 0.0)
tensor([[[ 1.6862, -1.1282,  1.1031,  0.0464, -1.3276],
         [-1.9967, -1.0054,  1.8972,  0.9174, -1.4995],
         [ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000]],
        [[-1.8546, -0.7194, -0.2918, -0.1846,  0.0000],
         [ 0.2773,  0.8793, -0.5183, -0.6447,  0.0000],
         [ 1.8009,  1.8468, -0.9832, -1.5272,  0.0000]]])
>>> pt_large = torch.nested.to_padded_tensor(nt, 1.0, (2, 4, 6))
tensor([[[ 1.6862, -1.1282,  1.1031,  0.0464, -1.3276,  1.0000],
         [-1.9967, -1.0054,  1.8972,  0.9174, -1.4995,  1.0000],
         [ 1.0000,  1.0000,  1.0000,  1.0000,  1.0000,  1.0000],
         [ 1.0000,  1.0000,  1.0000,  1.0000,  1.0000,  1.0000]],
        [[-1.8546, -0.7194, -0.2918, -0.1846,  1.0000,  1.0000],
         [ 0.2773,  0.8793, -0.5183, -0.6447,  1.0000,  1.0000],
         [ 1.8009,  1.8468, -0.9832, -1.5272,  1.0000,  1.0000],
         [ 1.0000,  1.0000,  1.0000,  1.0000,  1.0000,  1.0000]]])
>>> pt_small = torch.nested.to_padded_tensor(nt, 2.0, (2, 2, 2))
RuntimeError: Value in output_size is less than NestedTensor padded size. Truncation is not supported.

支持的操作

在本节中,我们总结了当前在 NestedTensor 上支持的操作以及它们的任何约束。

PyTorch 操作

约束

torch.matmul()

支持两个(>= 3d)嵌套张量之间的矩阵乘法,其中最后两个维度是矩阵维度,并且前导(批次)维度具有相同的大小(即,尚不支持批次维度的广播)。

torch.bmm()

支持两个 3-d 嵌套张量的批次矩阵乘法。

torch.nn.Linear()

支持 3-d 嵌套输入和密集 2-d 权重矩阵。

torch.nn.functional.softmax()

支持沿除 dim=0 之外的所有维度进行 softmax。

torch.nn.Dropout()

行为与常规张量相同。

torch.Tensor.masked_fill()

行为与常规张量相同。

torch.relu()

行为与常规张量相同。

torch.gelu()

行为与常规张量相同。

torch.silu()

行为与常规张量相同。

torch.abs()

行为与常规张量相同。

torch.sgn()

行为与常规张量相同。

torch.logical_not()

行为与常规张量相同。

torch.neg()

行为与常规张量相同。

torch.sub()

支持两个嵌套张量的逐元素减法。

torch.add()

支持两个嵌套张量的逐元素加法。支持将标量添加到嵌套张量。

torch.mul()

支持两个嵌套张量的逐元素乘法。支持将嵌套张量乘以标量。

torch.select()

支持沿所有维度进行选择。

torch.clone()

行为与常规张量相同。

torch.detach()

行为与常规张量相同。

torch.unbind()

仅支持沿 dim=0 解绑。

torch.reshape()

支持在保留 dim=0 大小的情况下重塑(即,嵌套的张量数量不能更改)。与常规张量不同,此处 -1 的大小意味着继承现有大小。特别是,不规则维度的唯一有效大小是 -1。大小推断尚未实现,因此对于新维度,大小不能为 -1

torch.Tensor.reshape_as()

reshape 类似的约束。

torch.transpose()

支持转置除 dim=0 之外的所有维度。

torch.Tensor.view()

新形状的规则与 reshape 的规则类似。

torch.empty_like()

行为类似于常规张量;返回一个新的空嵌套张量(即,具有未初始化的值),该张量与输入的嵌套结构匹配。

torch.randn_like()

行为类似于常规张量;返回一个新的嵌套张量,其值根据与输入嵌套结构匹配的标准正态分布随机初始化。

torch.zeros_like()

行为类似于常规张量;返回一个新的嵌套张量,该张量具有与输入嵌套结构匹配的所有零值。

torch.nn.LayerNorm()

normalized_shape 参数被限制为不扩展到 NestedTensor 的不规则维度中。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源