TilePositionalEmbedding¶
- class torchtune.models.clip.TilePositionalEmbedding(max_num_tiles: int, embed_dim: int)[源代码]¶
用于瓦片的 positional embedding,每个瓦片不同,每个瓦片内的每个标记相同。
请注意,瓦片不同于 patch(标记)。有关详细信息,请查看
torchtune.modules.vision_transformer.VisionTransformer
的文档。- forward(x: Tensor, aspect_ratio: Tensor) Tensor [源代码]¶
- 参数:
x (torch.Tensor) – 形状为 (bsz * n_imgs, n_tiles, n_tokens_per_tile, embed_dim) 的 torch.Tensor。
aspect_ratio (torch.Tensor) – 形状为 (bsz * n_imgs, 2) 的 torch.Tensor,表示图像在瓦片裁剪之前的纵横比,例如 (2,1)。
- 返回:
添加了位置嵌入的输入张量。
- 返回类型: