快捷方式

TokenPositionalEmbedding

class torchtune.models.clip.TokenPositionalEmbedding(embed_dim: int, tile_size: int, patch_size: int)[source]

图像的 Token 位置嵌入,图像中每个 Token 都不同。

请注意,tile 与 patch(token)不同。有关详细信息,请查看 torchtune.modules.vision_transformer.VisionTransformer 的文档。

参数:
  • embed_dim (int) – 每个 Token 嵌入的维度。

  • tile_size (int) – 图像 tile 的大小(如果图像已预先进行 tile 裁剪)。否则,为输入图像的大小。在这种情况下,该函数会将您的图像视为单个 tile。

  • patch_size (int) – 每个 patch 的大小。用于将 tile 分割成 patch。例如,对于 patch_size=40,形状为 (400, 400) 的 tile 将具有 10x10 的 patch 网格,每个 patch 的形状为 (40, 40)。

forward(x: Tensor, *args: Tuple[Any]) Tensor[source]
参数:
  • x (torch.Tensor) – 形状为 (…, n_tokens_per_tile, embed_dim) 的 torch.Tensor

  • *args (Tuple[Any]) – 可选参数。

返回:

添加了位置嵌入的输入张量。

返回类型:

torch.Tensor

文档

访问 PyTorch 的综合开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源