ConcatDataset¶
- class torchtune.datasets.ConcatDataset(datasets: List[Dataset])[source]¶
一个用于将多个子数据集连接成单个数据集的数据集类。此类支持将不同数据集统一处理为单个数据集,从而简化了同时在多个数据源上训练模型等任务。
该类在内部管理不同数据集的聚合,并允许跨数据集的透明索引。但是,它要求所有组成数据集都完全加载到内存中,这对于非常大的数据集可能不是最佳选择。
初始化后,此类会计算所有数据集的累积长度,并维护索引到各个数据集的内部映射。这种方法允许
ConcatDataset
在访问特定索引时,将数据检索透明地委托给相应的子数据集。注意
将此类用于非常大的数据集可能会导致高内存消耗,因为它要求所有数据集都加载到内存中。对于大规模场景,请考虑其他可能按需流式传输数据的策略。
- 参数:
datasets (List[Dataset]) – 要连接的数据集列表。每个数据集都必须是从
Dataset
派生的类的实例。- 引发:
ValueError – 如果 PackedDataset 的实例在 datasets 中
示例
>>> dataset1 = MyCustomDataset(params1) >>> dataset2 = MyCustomDataset(params2) >>> concat_dataset = ConcatDataset([dataset1, dataset2]) >>> print(len(concat_dataset)) # Total length of both datasets >>> data_point = concat_dataset[1500] # Accesses an element from the appropriate dataset
这也可以通过将数据集列表传递到 YAML 配置来完成
dataset: - _component_: torchtune.datasets.instruct_dataset source: vicgalle/alpaca-gpt4 split: train train_on_input: True - _component_: torchtune.datasets.instruct_dataset source: samsum column_map: {"output": "summary"} split: train train_on_input: False
此类主要侧重于提供统一的接口来访问多个数据集中的元素,从而增强了在处理用于训练机器学习模型的各种数据源时的灵活性。