快捷方式

样本打包

样本打包涉及将来自数据集的多个样本连接成单个序列,直到达到最大序列长度。这需要对数据集进行一些预处理,这可能会减慢首次批处理的时间,但根据数据集的不同,可以显著提高训练速度。在 torchtune 中,样本打包是通过迭代数据集并在数据集初始化时执行贪婪打包来完成的。您可以通过传入 packed=True,将样本打包与任何单个数据集构建器一起使用。

要设置打包的最大序列长度,请确保在您的分词器上定义 max_seq_len

from torchtune.datasets import alpaca_dataset, PackedDataset
from torchtune.models.llama3 import llama3_tokenizer

# Load in tokenizer
tokenizer = llama3_tokenizer(
    path="/tmp/Llama-3.2-1B-Instruct/original/tokenizer.model",
    max_seq_len=8192,
)
dataset = alpaca_dataset(
    tokenizer=tokenizer,
    packed=True,
)
print(isinstance(dataset, PackedDataset))  # True
# YAML config
tokenizer:
  _component_: torchtune.models.llama3.llama3_tokenizer
  path: /tmp/Llama-3.2-1B-Instruct/original/tokenizer.model
  max_seq_len: 8192

dataset:
  _component_: torchtune.datasets.alpaca_dataset
  packed: True
# Command line
tune run full_finetune_single_device --config llama3_2/1B_full_single_device \
dataset.packed=True tokenizer.max_seq_len=8192

当启用样本打包时,torchtune 将自动处理文档掩码和相对位置 ID,以防止不同的不相关样本交叉关注。这通过 PyTorch 的 Flex Attention 完成,这使得可以将 Flash Attention 与非因果掩码一起使用。如果您的硬件不支持 Flex Attention(对于 CUDA 设备,它必须是 Turing 或更高版本),则将使用带有内存高效注意力的标准 SDPA 作为后备,同时保留文档掩码和相对位置 ID。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源