指令数据集¶
指令微调是指训练一个 LLM 以执行特定任务。这通常采用用户命令或提示和助手响应的形式,以及可选的系统提示,描述手头的任务。这比模型通常预先训练的自由格式文本关联更有条理,在自由格式文本关联中,模型学习专门预测下一个标记而不是完成任务。
在 torchtune 中使用指令数据集进行微调的主要入口点是 instruct_dataset()
构建器。这使您能够直接从配置中指定一个本地或 Hugging Face 数据集,该数据集遵循指令数据格式,并在其上训练您的 LLM。
示例指令数据集¶
这是一个用于微调语法纠正任务的指令数据集示例。
head data/my_data.csv
# incorrect,correct
# This are a cat,This is a cat.
from torchtune.models.gemma import gemma_tokenizer
from torchtune.datasets import instruct_dataset
g_tokenizer = gemma_tokenizer(
path="/tmp/gemma-7b/tokenizer.model",
prompt_template="torchtune.data.GrammarErrorCorrectionTemplate",
max_seq_len=8192,
)
ds = instruct_dataset(
tokenizer=g_tokenizer,
source="csv",
data_files="data/my_data.csv",
split="train",
# By default, user prompt is ignored in loss. Set to True to include it
train_on_input=True,
# Prepend a system message to every sample
new_system_prompt="You are an AI assistant. ",
# Use columns in our dataset instead of default
column_map={"input": "incorrect", "output": "correct"},
)
tokenized_dict = ds[0]
tokens, labels = tokenized_dict["tokens"], tokenized_dict["labels"]
print(g_tokenizer.decode(tokens))
# You are an AI assistant. Correct this to standard English:This are a cat---\nCorrected:This is a cat.
print(labels) # System message is masked out, but not user message
# [-100, -100, -100, -100, -100, -100, 27957, 736, 577, ...]
# In config
tokenizer:
_component_: torchtune.models.gemma.gemma_tokenizer
path: /tmp/gemma-7b/tokenizer.model
prompt_template: torchtune.data.GrammarErrorCorrectionTemplate
max_seq_len: 8192
dataset:
source: csv
data_files: data/my_data.csv
split: train
train_on_input: True
new_system_prompt: You are an AI assistant.
column_map:
input: incorrect
output: correct
指令数据集格式¶
预计指令数据集遵循输入-输出格式,其中用户提示位于一列,助手提示位于另一列。
| input | output |
|-----------------|------------------|
| "user prompt" | "model response" |
例如,您可以看到 C4 200M 数据集 的模式。
从 Hugging Face 加载指令数据集¶
您只需将数据集仓库名称传递到 source
中,然后将其传递到 Hugging Face 的 load_dataset
中。对于大多数数据集,您还需要指定 split
。
# In code
from torchtune.models.gemma import gemma_tokenizer
from torchtune.datasets import instruct_dataset
g_tokenizer = gemma_tokenizer("/tmp/gemma-7b/tokenizer.model")
ds = instruct_dataset(
tokenizer=g_tokenizer,
source="liweili/c4_200m",
split="train"
)
# In config
tokenizer:
_component_: torchtune.models.gemma.gemma_tokenizer
path: /tmp/gemma-7b/tokenizer.model
# Tokenizer is passed into the dataset in the recipe
dataset:
_component_: torchtune.datasets.instruct_dataset
source: liweili/c4_200m
split: train
这将使用默认的列名“input”和“output”。要更改列名,请使用 column_map
参数(请参阅 重命名列)。
加载本地和远程指令数据集¶
要加载遵循指令格式的本地或通过 https 加载的远程数据集,您需要指定 source
、data_files
和 split
参数。有关加载本地或远程文件的更多详细信息,请参阅 Hugging Face 的 load_dataset
文档。
# In code
from torchtune.models.gemma import gemma_tokenizer
from torchtune.datasets import instruct_dataset
g_tokenizer = gemma_tokenizer("/tmp/gemma-7b/tokenizer.model")
ds = instruct_dataset(
tokenizer=g_tokenizer,
source="json",
data_files="data/my_data.json",
split="train",
)
# In config
tokenizer:
_component_: torchtune.models.gemma.gemma_tokenizer
path: /tmp/gemma-7b/tokenizer.model
# Tokenizer is passed into the dataset in the recipe
dataset:
_component_: torchtune.datasets.instruct_dataset
source: json
data_files: data/my_data.json
split: train
重命名列¶
您可以通过将 column_map
指定为 {"<default column>": "<column in your dataset>"}
来将默认列名重新映射到您数据集中的列名。默认列名在每个数据集构建器中都有详细说明(例如,请参阅 instruct_dataset()
和 chat_dataset()
)。
例如,如果默认列名是“input”、“output”,您需要将其更改为其他名称,例如“prompt”、“response”,则 column_map = {"input": "prompt", "output": "response"}
。
# data/my_data.json
[
{"prompt": "hello world", "response": "bye world"},
{"prompt": "are you a robot", "response": "no, I am an AI assistant"},
...
]
from torchtune.models.gemma import gemma_tokenizer
from torchtune.datasets import instruct_dataset
g_tokenizer = gemma_tokenizer("/tmp/gemma-7b/tokenizer.model")
ds = instruct_dataset(
tokenizer=g_tokenizer,
source="json",
data_files="data/my_data.json",
split="train",
column_map={"input": "prompt", "output": "response"},
)
# Tokenizer is passed into the dataset in the recipe
dataset:
_component_: torchtune.datasets.instruct_dataset
source: json
data_files: data/my_data.json
split: train
column_map:
input: prompt
output: response
指令模板¶
通常对于指令数据集,您需要添加一个 PromptTemplate
来提供与任务相关的的信息。例如,对于语法纠正任务,我们可能希望使用类似于 GrammarErrorCorrectionTemplate
的提示模板来构建我们的每个样本。提示模板将传递到分词器,并自动应用于您正在微调的数据集。有关更多详细信息,请参阅 使用提示模板。