快捷方式

Llama3VisionEncoder

class torchtune.models.llama3_2_vision.Llama3VisionEncoder(clip: Module, projection_head: Module)[源代码]

Llama 3.2 Vision 的视觉编码器模型。它将预训练的视觉编码器与可学习的投影头相结合。投影头被转换为融合模块,并支持融合实用程序。

参数:
  • clip (nn.Module) – CLIP 编码器视觉模型

  • projection_head (nn.Module) – 投影头,它以维度为 encoder_dim 的嵌入作为输入,并输出大小为 decoder_dim 的嵌入。

forward(images: Tensor, aspect_ratio: Optional[Tensor] = None) Tensor[源代码]
参数:
  • images (torch.Tensor) – 形状为 [b x i x t x c x w x h] 的图像张量

  • aspect_ratio (Optional[torch.Tensor]) – 形状为 [b x i x 2] 的张量。如果所有图像都只有一个图块,即它们未进行图块裁剪,则应为 None。用于计算图块的位置嵌入。

返回值:

一系列嵌入的输出张量 [b x s x d]

其中序列长度为 num_imgs*num_tiles+num_embeds

返回类型:

张量

用于张量形状的符号
  • b:批次大小

  • i:图像数量

  • t:图块数量(其中单个图像被分成多个图块)

  • c:图像通道数量(例如,rgb = 3)

  • w:图像宽度

  • h:图像高度

  • s:由 i*t*clip_embeds_per_tile 计算的序列长度

  • d:嵌入维度

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深度教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源