Llama3VisionTransform¶
- class torchtune.models.llama3_2_vision.Llama3VisionTransform(path: str, *, tile_size: int, patch_size: int, max_num_tiles: int = 4, special_tokens_path: Optional[str] = None, max_seq_len: Optional[int] = None, image_mean: Optional[Tuple[float, float, float]] = None, image_std: Optional[Tuple[float, float, float]] = None, prompt_template: Optional[PromptTemplate] = None)[source]¶
此转换结合了 Llama 3.2 Vision 不同模态的转换。它由以下转换组成:-
torchtune.models.llama3.Llama3Tokenizer
-torchtune.models.clip.CLIPImageTransform
-torchtune.modules.transforms.VisionCrossAttentionMask
此转换可以作为配方和生成中分词器的直接替代品,但会处理来自 __call__ 方法的额外转换。
- 参数:
path (str) – 预训练 tiktoken 分词器文件的路径。
tile_size (int) – 将图像分割成的瓦片大小。
patch_size (int) – CLIP 视觉 Transformer 模型中使用的 patch 大小。这用于计算每个图像的图像嵌入数量。
max_num_tiles (int) – 仅当未提供 possible_resolutions 时使用。将图像分割成的最大瓦片数量。这将用于生成 possible_resolutions,例如,如果 max_num_tiles = 2 且 tile_size = 224,则为 [(224, 224), (224, 448), (448, 224)]。默认为 4。
special_tokens_path (Optional[str]) – 指向 Hugging Face 模型文件中包含所有注册特殊 token 的
tokenizer.json
的路径,或结构类似的本地 json 文件。默认为 None,使用规范的 Llama3 特殊 token。max_seq_len (Optional[int]) – 对单个消息列表进行分词的最大序列长度,超过此长度后,输入将被截断。默认为 None。
image_mean (Optional[Tuple[float, float, float]]) – 每个通道的均值,用于归一化。
image_std (Optional[Tuple[float, float, float]]) – 每个通道的标准差,用于归一化。
prompt_template (Optional[PromptTemplate]) –
用于根据消息角色格式化消息的模板。这用于在实际消息周围添加结构化文本。结构化文本用于以下三种场景
特定于任务的模板,用于调整模型以适应训练后期望的特定任务
模型特定的模板,在每次提示模型时都需要,例如 Llama2 和 Mistral 中的 [INST] 标签
社区标准化模板,例如
ChatMLTemplate
额外的文本仍将作为普通文本进行分词,而不是作为特殊 token。默认为 None。
示例
>>> model_transform = Llama3VisionTransform("/path/to/tokenizer.model", tile_size=224, patch_size=14) >>> transformed_data = model_transform({"messages": user_message, "images": [img1, img2]}) >>> print(transformed_data["tokens"]) [1, 31587, 29644, 102, 2] >>> print(transformed_data["images"][0].shape) torch.Size([4, 3, 224, 224])
- decode(token_ids: List[int], truncate_at_eos: bool = True, skip_special_tokens: bool = True) str [source]¶
将 token id 列表解码为字符串。