快捷方式

令牌位置嵌入

class torchtune.models.clip.TokenPositionalEmbedding(embed_dim: int, tile_size: int, patch_size: int)[源代码]

用于图像的令牌位置嵌入,每个图像中的每个令牌都不同。

请注意,图块不同于补丁(令牌)。有关详细信息,请查看 torchtune.modules.vision_transformer.VisionTransformer 的文档。

参数::
  • embed_dim (int) – 每个令牌嵌入的维数。

  • tile_size (int) – 图像图块的大小(如果图像已提前进行图块裁剪)。否则,输入图像的大小。在这种情况下,该函数将您的图像视为单个图块。

  • patch_size (int) – 每个补丁的大小。用于将图块划分为补丁。例如,对于 patch_size=40,形状为 (400, 400) 的图块将具有形状为 (40, 40) 的 10x10 补丁网格。

forward(x: Tensor, *args: Tuple[Any]) Tensor[源代码]
参数::
  • x (torch.Tensor) – 形状为 (…, n_tokens_per_tile, embed_dim) 的 torch.Tensor

  • *args (Tuple[Any]) – 可选参数。

返回值::

添加了位置嵌入的输入张量。

返回类型::

torch.Tensor

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的答案

查看资源