快捷方式

TilePositionalEmbedding

class torchtune.models.clip.TilePositionalEmbedding(max_num_tiles: int, embed_dim: int)[源代码]

用于瓦片的 positional embedding,每个瓦片不同,每个瓦片内的每个标记相同。

请注意,瓦片不同于 patch(标记)。有关详细信息,请查看 torchtune.modules.vision_transformer.VisionTransformer 的文档。

参数:
  • max_num_tiles (int) – 图像可以划分的瓦片最大数量。

  • embed_dim (int) – 每个瓦片嵌入的维数。

forward(x: Tensor, aspect_ratio: Tensor) Tensor[源代码]
参数:
  • x (torch.Tensor) – 形状为 (bsz * n_imgs, n_tiles, n_tokens_per_tile, embed_dim) 的 torch.Tensor。

  • aspect_ratio (torch.Tensor) – 形状为 (bsz * n_imgs, 2) 的 torch.Tensor,表示图像在瓦片裁剪之前的纵横比,例如 (2,1)。

返回:

添加了位置嵌入的输入张量。

返回类型:

torch.Tensor

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获得针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源