ConcatDataset¶

class torchtune.datasets.ConcatDataset(datasets: List[Dataset])[源代码]¶

一个用于将多个子数据集连接成一个单一数据集的数据集类。此类支持将不同的数据集统一处理，就像它们是一个单一数据集一样，从而简化了同时在多个数据源上训练模型等任务。

此类在内部管理不同数据集的聚合，并允许跨这些数据集进行透明索引。然而，它要求所有组成数据集完全加载到内存中，这对于超大型数据集可能不是最优的。

初始化时，此类会计算所有数据集的累积长度，并维护索引到相应数据集的内部映射。这种方法允许当访问特定索引时，ConcatDataset 透明地将数据检索委托给相应的子数据集。

注意

将此类与超大型数据集一起使用可能会导致高内存消耗，因为它要求所有数据集加载到内存中。对于大规模场景，请考虑可能按需流式传输数据的其他策略。

参数:: datasets (List[Dataset]) – 要连接的数据集列表。每个数据集必须是派生自 Dataset 的类实例。
抛出:: ValueError – 如果 datasets 中包含 PackedDataset 的实例

示例

>>> dataset1 = MyCustomDataset(params1)
>>> dataset2 = MyCustomDataset(params2)
>>> concat_dataset = ConcatDataset([dataset1, dataset2])
>>> print(len(concat_dataset))  # Total length of both datasets
>>> data_point = concat_dataset[1500]  # Accesses an element from the appropriate dataset

这也可以通过将数据集列表传递给 YAML 配置来实现

dataset:
  - _component_: torchtune.datasets.instruct_dataset
    source: vicgalle/alpaca-gpt4
    split: train
    train_on_input: True
    packed: True
  - _component_: torchtune.datasets.grammar_dataset
    split: train[:1%]
    train_on_input: False
    packed: True

此类主要专注于提供统一接口来访问多个数据集中的元素，从而增强了处理多样化数据源以训练机器学习模型的灵活性。

ConcatDataset¶

文档

教程

资源