快捷方式

llama3_2_vision_encoder

torchtune.models.llama3_2_vision.llama3_2_vision_encoder(*, patch_size: int, num_heads: int, clip_embed_dim: int, clip_num_layers: int, clip_hidden_states: Optional[List[int]], num_layers_projection: int, decoder_embed_dim: int, tile_size: int, max_num_tiles: int = 4, in_channels: int = 3) Llama3VisionEncoder[源代码]

通过将 CLIP 图像模型与额外的投影头融合模块组合,构建 Llama 3.2 视觉编码器。 这包括: - 空间位置编码 - CLIP 模型主干 - CLIP 之上的投影头 - 最终投影到标记嵌入维度

参数:
  • patch_size (int) – 每个补丁的大小。 用于将图块划分为补丁。 例如,对于 patch_size=40,形状为 (400, 400) 的图块将具有 10x10 网格的补丁,每个补丁的形状为 (40, 40)。

  • num_heads (int) – 每个转换器层中的注意力头的数量。

  • clip_embed_dim (int) – CLIP 中每个补丁嵌入的维数。

  • clip_num_layers (int) – 转换器层的数量。

  • clip_hidden_states (Optional[List[int]]) – 要返回给编码器投影头的 CLIP 隐藏层的索引。 它将返回视觉转换器层的中途结果,这些结果将与 CLIP 输出连接并输入投影头。 例如,clip_hidden_states=[0,3] 将返回它们经过第一层和第四层之前的嵌入。

  • num_layers_projection (int) – 投影头中的转换器层的数量。

  • decoder_embed_dim (int) – 解码器最终输出嵌入的维数。

  • tile_size (int) – 您的图像图块的大小,如果图像在预处理时已进行图块裁剪。 否则,输入图像的大小。 在这种情况下,该函数将您的图像视为单个图块。

  • max_num_tiles (int) – 可以处理的图块的最大数量。 这用于确定位置嵌入的大小。

  • in_channels (int) – 图像输入通道的数量。

返回:

Llama 3.2 视觉编码器的实例化。

返回类型:

Llama3VisionEncoder

文档

访问 PyTorch 的全面的开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源