clip_vision_encoder¶
- torchtune.models.clip.clip_vision_encoder(tile_size: int, patch_size: int, embed_dim: int, num_layers: int, num_heads: int, activation: ~typing.Callable = <class 'torch.nn.modules.activation.SiLU'>, cls_output_dim: int = 512, attn_bias: bool = True, out_indices: ~typing.Optional[~typing.List[int]] = None, output_cls_projection: bool = False, max_num_tiles: int = 4, in_channels: int = 3, intermediate_act: ~torch.nn.modules.module.Module = SiLU()) VisionTransformer [源代码]¶
构建与 clip 模型关联的视觉编码器。这包括
TransformerEncoderLayer
位置嵌入
CLS 投影(可选)
有关详细信息,请查看
torchtune.modules.vision_transformer.VisionTransformer
的文档。- 参数:
tile_size (int) – 图像块的大小,如果图像事先已进行块裁剪。否则,为输入图像的大小。在这种情况下,该函数会将您的图像视为单个块。
patch_size (int) – 每个块的大小。用于将块划分为块。例如,对于
patch_size=40
,形状为 (400, 400) 的块将具有 10x10 的块网格,每个块的形状为 (40, 40)。embed_dim (int) – 每个块嵌入(标记)的维度。
num_layers (int) – 变压器层的数量。
num_heads (int) – 每个变压器层中注意力头的数量。
activation (Callable) – 在 MLP 层中使用的激活函数。
cls_output_dim (int) – CLS 投影模块输出张量的维度。
attn_bias (bool) – 布尔值,指示是否在注意力模块中使用偏置。默认为 True。
out_indices (Optional[List[int]]) – 要返回的隐藏层的索引。如果提供,它将返回变压器层在进入下一层之前的中间结果。例如,
out_indices=[0,3]
将返回标记在经过第一层和第四层之前的标记。output_cls_projection (bool) – 如果为 True,则仅输出 CLS 标记投影,而不是所有标记。默认为 False。
max_num_tiles (int) – 可以处理的最大块数。这用于确定位置嵌入的大小。
in_channels (int) – 图像输入通道的数量。
intermediate_act (torch.nn.Module) – 在变压器编码器中的中间层中使用的激活函数。
- 返回值:
一个 VisionTransformer 对象。
- 引发:
AssertionError – 如果
embed_dim
不能被num_heads
整除。