PackedDataset¶
- class torchtune.datasets.PackedDataset(ds: Dataset, *, max_seq_len: int, padding_idx: int = 0, max_packs: Optional[int] = None, split_across_pack: bool = False)[源代码]¶
对提供的数据集执行贪婪样本打包。这作为训练开始前的单个预处理步骤完成。使用
Sampler
作为数据加载器的一部分,在打包后的样本上进行外部洗牌。目前,这仅支持内存中的映射式数据集。该类在初始化时加载、标记化和打包示例 - 训练期间不会进行标记化。
初始化的一般流程是:加载标记化的样本 -> 添加到缓冲区 -> 当缓冲区足够长时,添加到
self.packs
中。在训练期间,返回 self.packs[idx] 作为输入、标签、注意力掩码和位置 ID。注意力掩码是下三角块掩码,以防止样本在包内进行交叉注意力。位置 ID 指示每个标记相对于其在包内的样本的位置。这些都填充到最大序列长度,因此不需要批处理级整理器。
打包后的样本由塞入
max_seq_len
内的各个较短序列长度样本组成。例如,如果 max_seq_len 为 6 并且存在不同长度的样本tokens = [ [S1, S1, S1, S2, S2, pad], [S3, S3, S4, S4, pad, pad], ..., ]
为了防止交叉污染,对于示例中的第一个包,将返回以下掩码
mask = [ [1, 0, 0, 0, 0, 0], [1, 1, 0, 0, 0, 0], [1, 1, 1, 0, 0, 0], [0, 0, 0, 1, 0, 0], [0, 0, 0, 1, 1, 0], [0, 0, 0, 0, 0, 1], ]
位置 ID 将是
input_pos = [ [0, 1, 2, 0, 1, 2], [0, 1, 0, 1, 2, 3], ..., ]
在掩码中使用单位矩阵表示填充标记,而不是因果掩码。对于填充标记的位置 ID,我们只需从之前的样本正常递增即可。
- 参数:
ds (Dataset) – 要进行样本打包的数据集。这应该返回一个包含字段“tokens”和“labels”的字典,其中包含标记化和标签样本。
max_seq_len (int) – 要打包的最大标记数
padding_idx (int) – 分词器的填充索引。默认为 0。
max_packs (Optional[int]) – 最大包数。默认为 None,这将创建尽可能多的包。
split_across_pack (bool) – 如果包中的最后一个样本不适合
max_seq_len
,则将样本拆分到下一个包中,或将其完全移动到下一个包的开头。对于预训练,通常将此设置为 True 以进行通用文本补全。对于微调,通常将其设置为 False 以避免在指令微调中截断句子。默认为 False。