样本打包¶
样本打包涉及将来自数据集的多个样本连接成单个序列,直到达到最大序列长度。这需要对数据集进行一些预处理,这可能会减慢首次批处理的时间,但根据数据集的不同,可以显著提高训练速度。在 torchtune 中,样本打包是通过迭代数据集并在数据集初始化时执行贪婪打包来完成的。您可以通过传入 packed=True
,将样本打包与任何单个数据集构建器一起使用。
要设置打包的最大序列长度,请确保在您的分词器上定义 max_seq_len
。
from torchtune.datasets import alpaca_dataset, PackedDataset
from torchtune.models.llama3 import llama3_tokenizer
# Load in tokenizer
tokenizer = llama3_tokenizer(
path="/tmp/Llama-3.2-1B-Instruct/original/tokenizer.model",
max_seq_len=8192,
)
dataset = alpaca_dataset(
tokenizer=tokenizer,
packed=True,
)
print(isinstance(dataset, PackedDataset)) # True
# YAML config
tokenizer:
_component_: torchtune.models.llama3.llama3_tokenizer
path: /tmp/Llama-3.2-1B-Instruct/original/tokenizer.model
max_seq_len: 8192
dataset:
_component_: torchtune.datasets.alpaca_dataset
packed: True
# Command line
tune run full_finetune_single_device --config llama3_2/1B_full_single_device \
dataset.packed=True tokenizer.max_seq_len=8192
当启用样本打包时,torchtune 将自动处理文档掩码和相对位置 ID,以防止不同的不相关样本交叉关注。这通过 PyTorch 的 Flex Attention 完成,这使得可以将 Flash Attention 与非因果掩码一起使用。如果您的硬件不支持 Flex Attention(对于 CUDA 设备,它必须是 Turing 或更高版本),则将使用带有内存高效注意力的标准 SDPA 作为后备,同时保留文档掩码和相对位置 ID。