快捷方式

llava_instruct_dataset

torchtune.datasets.multimodal.llava_instruct_dataset(model_transform: Transform, *, source: str = 'liuhaotian/LLaVA-Instruct-150K', image_dir: str = 'coco/train2017/', column_map: Optional[Dict[str, str]] = None, new_system_prompt: Optional[str] = None, packed: bool = False, split: str = 'train', data_files: str = 'llava_instruct_150k.json', **load_dataset_kwargs: Dict[str, Any]) SFTDataset[源代码]

支持类似于来自 Hugging Face 数据集的 LLaVA-Instruct-150K 的一系列图像 + 文本数据集。

要使用此数据集,您必须首先下载 COCO 训练集 2017 图像数据集。您可以访问 https://cocodataset.org/#download 或直接下载。

wget -c http://images.cocodataset.org/zips/train2017.zip
unzip train2017.zip -d coco/

应将结果目录传递到模型转换中以加载和处理图像。

模型转换预计是一个可调用的函数,它对模型应用特定于模型的预处理步骤。对于多模态数据集,这至少需要一个分词器和一个图像转换。在数据集转换为 Message 列表后,分词器将文本序列转换为标记 ID。图像转换将加载图像并根据模型的要求对其进行处理。

以下是一个用于说明目的的最小示例

from torchtune.models.llama3 import llama3_tokenizer
from torchtune.models.clip import CLIPImageTransform
from torchtune.modules.transforms import Transform

class MyModelTransform(Transform):
    def __init__(
        self,
        tokenizer_path: str,
        max_seq_len: Optional[int] = None,
    ):
        self.tokenizer = llama3_tokenizer(tokenizer_path)
        self.image_transform = CLIPImageTransform()

    def __call__(self, sample: Mapping[str, Any]) -> Mapping[str, Any]:
        tokens, mask = self.tokenizer.tokenize_messages(sample["messages"])
        images = self.image_transform(sample["images"])
        return {
            "tokens": tokens,
            "mask": mask,
            "images": images,
        }

有关模型转换和消息转换的更多详细信息,请参阅 SFTDataset

参数:
  • model_transform (Transform) – 模型特定的转换类,它接收一个样本字典并在键上应用自定义转换。它应至少包含两个组件:文本标记化(在“messages”字段上调用)和图像转换(在“images”字段上调用)。模型转换返回的键应与模型的预期输入保持一致。

  • source (str) – Hugging Face 上数据集存储库的路径。对于本地数据集,将源定义为数据文件类型(例如“json”、“csv”、“text”),并在 data_files 中传入文件路径。请参阅 Hugging Face 的

  • image_dir (str) – 包含图像的目录的路径,因为您需要在使用前下载 COCO 数据集。默认为“coco/”。

  • column_map (可选[Dict[str, str]]) – 预期列(“对话”)到数据集新列名的映射。如果为 None,则假设它们相同。默认为 None。

  • new_system_prompt (可选[str]) – 如果指定,则在前面添加系统消息。这可以作为指导模型响应的说明。设置此项将覆盖数据集中已存在的任何系统消息。默认为 None。

  • packed (bool) – 是否在训练前将数据集打包到 max_seq_len。默认为 False。

  • split (str) – datasets.load_datasetsplit 参数。您可以使用此参数加载给定分割的子集,例如 split="train[:10%]"。默认为 “train”。

  • data_files (str) – 要加载为数据集的 json 文件的路径。有关选项,请参阅 数据集仓库。默认为 “llava_instruct_150k.json”。

  • **load_dataset_kwargs (Dict[str, Any]) – 传递给 load_dataset 的其他关键字参数。有关更多详细信息,请参阅 Hugging Face 的 API 参考

返回:

配置了源数据和转换的数据集

返回类型:

SFTDataset

引发:

ValueError – 如果 packed 为 True,则它们尚不支持多模态数据集。

示例

>>> llava_instruct_ds = llava_instruct_dataset(model_transform=model_transform)
>>> for batch in Dataloader(llava_instruct_ds, batch_size=8):
>>>     print(f"Batch size: {len(batch)}")
>>> Batch size: 8

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取适合初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源