目录

快捷方式

TilePositionalEmbedding¶

class torchtune.models.clip.TilePositionalEmbedding(max_num_tiles: int, embed_dim: int)[源]¶

瓦片的位置嵌入，每个瓦片不同，但同一瓦片内的每个 token 相同。

注意，瓦片与 patch (token) 不同。详情请查阅 torchtune.modules.vision_transformer.VisionTransformer 的文档。

参数：

max_num_tiles (int) – 图像可以被分割成的最大瓦片数量。
embed_dim (int) – 每个瓦片 embedding 的维度。

forward(x: Tensor, aspect_ratio: Tensor) → Tensor[源]¶

参数：

x (torch.Tensor) – 形状为 (bsz * n_imgs, n_tiles, n_tokens_per_tile, embed_dim) 的 torch.Tensor。
aspect_ratio (torch.Tensor) – 形状为 (bsz * n_imgs, 2) 的 torch.Tensor，表示瓦片裁剪前图像的宽高比，例如 (2,1)。

返回值：

添加了位置嵌入的输入张量。

返回类型：

文档

查阅 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源