Llama3VisionEncoder¶
- class torchtune.models.llama3_2_vision.Llama3VisionEncoder(clip: Module, projection_head: Module)[source]¶
Llama 3.2 Vision 的视觉编码器模型。 这结合了预训练的视觉编码器和可学习的投影头。 投影头被转换为融合模块,并支持融合实用程序。
- 参数:
clip (nn.Module) – CLIP 编码器视觉模型
projection_head (nn.Module) – projection_head,它接受维度为 encoder_dim 的嵌入作为输入,并输出大小为 decoder_dim 的嵌入。
- forward(images: Tensor, aspect_ratio: Optional[Tensor] = None) Tensor [source]¶
- 参数:
images (torch.Tensor) – 形状为 [b x i x t x c x w x h] 的图像张量
aspect_ratio (Optional[torch.Tensor]) – 形状为 [b x i x 2] 的张量。如果所有图像都只有一个图块,即它们未进行图块裁剪,则应为 None。用于计算图块的位置嵌入。
- 返回:
- 嵌入序列的输出张量 [b x s x d]
其中序列长度为 num_imgs*num_tiles+num_embeds
- 返回类型:
Tensor
- 用于张量形状的符号
b: 批大小
i: 图像数量
t: 图块数量(其中单个图像被分解为多个图块)
c: 图像通道数(例如 rgb = 3)
w: 图像宽度
h: 图像高度
s: 序列长度,由 i*t*clip_embeds_per_tile 计算得出
d: 嵌入维度