微调您的第一个 LLM¶

本指南将引导您完成使用 torchtune 启动您的第一个微调作业的过程。

您将学到

如何从 Hugging Face Hub 下载模型
如何修改配方的参数以满足您的需求
如何运行微调

先决条件

熟悉 torchtune 概述
确保安装 torchtune

下载模型¶

任何微调作业的第一步都是下载预训练的基础模型。torchtune 支持与 Hugging Face Hub 的集成 - 最新且最出色的模型权重的集合。

对于本教程，您将使用 Meta 的 Llama2 7B 模型。Llama2 是一个“门控模型”，这意味着您需要获得授权才能下载权重。按照 Meta 在 Hugging Face 上托管的官方页面上的这些说明完成此过程。这应该不到 5 分钟。要验证您是否已获得访问权限，请转到模型页面。您应该能够看到模型文件。如果没有，您可能需要接受协议才能完成该过程。

注意

或者，您可以选择通过 Llama2 存储库直接下载模型。有关更多详细信息，请参阅此页面。

获得授权后，您需要使用 Hugging Face Hub 进行身份验证。最简单的方法是向下载脚本提供访问令牌。您可以在此处找到您的令牌。

然后，它就像

tune download meta-llama/Llama-2-7b-hf \
  --output-dir /tmp/Llama-2-7b-hf \
  --hf-token <ACCESS TOKEN>

此命令还将下载模型标记器和一些其他有用的文件，例如负责任使用指南。

选择一个配方¶

配方是 torchtune 用户的主要入口点。可以将它们视为可破解、专注于与 LLM 交互的单一脚本，包括训练、推理、评估和量化。

每个配方都包含三个组件

可配置参数，通过 yaml 配置和命令行覆盖指定
配方脚本，入口点，将所有内容放在一起，包括解析和验证配置、设置环境以及正确使用配方类
配方类，通过一组 API 暴露的训练所需的核心逻辑

注意

要了解有关“配方”概念的更多信息，请查看我们的技术深度剖析：什么是配方？。

torchtune 提供了针对单个设备进行微调的内置配方，在具有 FSDP 的多个设备上进行微调，使用 LoRA 等内存高效技术，以及更多！您可以在 GitHub 上查看所有内置配方。您还可以使用 tune ls 命令打印出所有配方和相应的配置。

$ tune ls
RECIPE                                   CONFIG
full_finetune_single_device              llama2/7B_full_low_memory
                                         mistral/7B_full_low_memory
full_finetune_distributed                llama2/7B_full
                                         llama2/13B_full
                                         mistral/7B_full
lora_finetune_single_device              llama2/7B_lora_single_device
                                         llama2/7B_qlora_single_device
                                         mistral/7B_lora_single_device
...

在本教程中，你将使用使用 LoRA 在单个设备上微调 Llama2 模型的食谱。有关 torchtune 中 LoRA 的更深入讨论，你可以查看完整的使用 LoRA 微调 Llama2 教程。

注意

为什么单设备和分布式有单独的食谱？这在什么是食谱？中进行了讨论，但 torchtune 的核心原则之一是最小抽象和样板代码。如果你只想在单个 GPU 上进行训练，我们的单设备食谱可确保你不必担心仅分布式训练所需的 FSDP 等附加功能。

修改配置¶

YAML 配置包含运行食谱所需的大部分重要信息。你可以设置超参数、指定 WandB 等指标记录器、选择新数据集，等等。有关当前支持的所有数据集的列表，请参阅 torchtune.datasets。

有两种方法可以修改现有配置

从命令行覆盖现有参数

你可以使用 key=value 格式从命令行覆盖现有参数。假设你想将训练轮数设置为 1。

tune run <RECIPE> --config <CONFIG> epochs=1

通过 `tune cp` 复制配置并直接修改

如果你想对配置进行更实质性的更改，可以使用 tune CLI 将其复制到本地目录。

$ tune cp llama2/7B_lora_single_device custom_config.yaml
Copied file to custom_config.yaml

现在，你可以按任何你喜欢的方式更新自定义 YAML 配置。尝试设置随机种子以简化复制、更改 LoRA 等级、更新批大小等。

注意

查看关于配置的一切以更深入地了解 torchtune 中的配置。

训练模型¶

现在你已经有了合适格式的模型和适合你需要的配置，让我们开始训练吧！

就像所有其他步骤一样，你将使用 tune CLI 工具启动微调运行。

$ tune run lora_finetune_single_device --config llama2/7B_lora_single_device epochs=1
INFO:torchtune.utils.logging:Running LoRAFinetuneRecipeSingleDevice with resolved config:
Writing logs to /tmp/lora_finetune_output/log_1713194212.txt
INFO:torchtune.utils.logging:Model is initialized with precision torch.bfloat16.
INFO:torchtune.utils.logging:Tokenizer is initialized from file.
INFO:torchtune.utils.logging:Optimizer and loss are initialized.
INFO:torchtune.utils.logging:Loss is initialized.
INFO:torchtune.utils.logging:Dataset and Sampler are initialized.
INFO:torchtune.utils.logging:Learning rate scheduler is initialized.
1|52|Loss: 2.3697006702423096:   0%|▏                     | 52/25880 [00:24<3:55:01,  1.83it/s]

你可以看到，所有模块都已成功初始化，模型已开始训练。你可以通过tqdm进度条监控损失和进度，但torchtune还将以配置中定义的间隔记录一些其他指标，例如GPU内存使用情况。

后续步骤¶

现在你已经训练了模型并设置了环境，让我们通过查看端到端工作流教程，了解我们可以用新模型做什么。