目录

快捷方式

TokenPositionalEmbedding¶

class torchtune.models.clip.TokenPositionalEmbedding(embed_dim: int, tile_size: int, patch_size: int)[source]¶

用于图像的 Token 位置嵌入，图像中的每个 Token 都有不同的嵌入。

请注意，tile 与 patch (token) 不同。详情请查阅 torchtune.modules.vision_transformer.VisionTransformer 的文档。

参数:

embed_dim (int) – 每个 Token 嵌入的维度。
tile_size (int) – 图像 tile 的大小，如果图像是预先 tile-cropped 的话。否则，为输入图像的大小。在这种情况下，函数会将图像视为单个 tile。
patch_size (int) – 每个 patch 的大小。用于将 tile 分割成 patch。例如，对于 patch_size=40，一个形状为 (400, 400) 的 tile 将有 10x10 的 patch 网格，每个 patch 的形状为 (40, 40)。

forward(x: Tensor, *args: Tuple[Any]) → Tensor[source]¶

参数:

x (torch.Tensor) – 形状为 (…, n_tokens_per_tile, embed_dim) 的 torch.Tensor
*args (Tuple[Any]) – 可选参数。

返回值:

添加了位置嵌入的输入张量。

返回类型:

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源