preference_dataset¶

torchtune.datasets.preference_dataset(tokenizer: ModelTokenizer, *, source: str, column_map: Optional[Dict[str, str]] = None, train_on_input: bool = False, new_system_prompt: Optional[str] = None, filter_fn: Optional[Callable] = None, split: str = 'train', **load_dataset_kwargs: Dict[str, Any]) → PreferenceDataset[源代码]¶: 配置一个包含用户和模型助手之间交互的自定义偏好数据集。

此构建器函数可以直接从 yaml 配置文件配置自定义偏好数据集，作为 PreferenceDataset 的替代方案，因为它设计为对配置友好。

此函数要求数据集包含“chosen”和“rejected”两列。单个样本在“chosen”和“rejected”两列之间共享相同的系统提示词和/或用户提示词，后跟用户和助手消息的一轮或多轮对话

| chosen | rejected | |----------------------------------------|----------------------------------------| | [{"role": "user", "content": Q1}, | [{"role": "user", "content": Q1}, | | {"role": "assistant", "content": C1}] | {"role": "assistant", "content": R1}] |

此示例将被转换为

chosen_messages = [ Message(role="user", content="Q1"), Message(role="assistant", content="C1"), ] rejected_messages = [ Message(role="user", content="Q1"), Message(role="assistant", content="R1"), ]

然后将这些消息列表进行分词以用于模型训练。目前，此函数仅支持与 OpenAIToMessages 相同的对话格式，不支持自定义消息格式。

如果您的数据集不遵循此格式，我们建议创建一个类似于 ChosenRejectedToMessages 的自定义消息变换，并在类似于 preference_dataset 的自定义数据集构建器函数中使用它。

训练期间提示词的掩码由 train_on_input 标志控制，默认设置为 False。

如果 train_on_input 为 True，则提示词在训练期间被使用并计入损失。

如果 train_on_input 为 False，则提示词被掩码（标记替换为 -100）。

参数：

tokenizer (ModelTokenizer) – 模型使用的分词器，实现了 tokenize_messages 方法。

source (str) – Hugging Face 上数据集仓库的路径。对于本地数据集，将 source 定义为数据文件类型（例如“json”、“csv”、“text”），在 data_files 中传入文件路径，并将 split="train"。更多详情请参阅 Hugging Face 的 load_dataset 文档。

column_map (Optional[Dict[str, str]]) – 将消息变换 ChosenRejectedToMessages 中期望的“chosen”和“rejected”列映射到数据集中新列名的映射。键应为“chosen”和“rejected”，值应为实际的列名。如果为 None，则保留默认列“chosen”和“rejected”。

train_on_input (bool) – 模型是否在提示词上进行训练。默认为 False。

new_system_prompt (Optional[str]) – 如果指定，则为 chosen 和 rejected 的每个样本前置一个系统消息。这可以作为指导模型响应的指令。设置此项将覆盖数据集中已存在的任何系统消息。默认为 None。

filter_fn (Optional[Callable]) – 用于在任何预处理之前过滤数据集的可调用对象。更多详情请参阅 Hugging Face 文档。

split (str) – datasets.load_dataset 的 split 参数。您可以使用此参数加载给定分割的子集，例如 split="train[:10%]"。默认为“train”。

**load_dataset_kwargs (Dict[str, Any]) – 传递给 load_dataset 的附加关键字参数。

示例

my_preference_dataset.json [ { "chosen_conversations": [ { "content": "What do I do when I have a hole in my trousers?", "role": "user" }, { "content": "Fix the hole.", "role": "assistant" } ], "rejected_conversations": [ { "content": "What do I do when I have a hole in my trousers?", "role": "user" }, { "content": "Take them off.", "role": "assistant" } ] } ]

>>> from torchtune.datasets import preference_dataset >>> column_map = { ... "chosen": "chosen_conversations", ... "rejected": "rejected_conversations" >>> } >>> dataset = preference_dataset( ... tokenizer=tokenizer, ... source="json", ... column_map=column_map, ... data_files="my_preference_dataset.json", ... train_on_input=False, ... split="train", >>> ) >>> tokenizer.decode(dataset[0]["chosen_input_ids"], skip_special_tokens=True) What do I do when I have a hole in my trousers?Fix the hole. >>> tokenizer.decode(dataset[0]["rejected_input_ids"], skip_special_tokens=True) What do I do when I have a hole in my trousers?Take them off.

这也可以通过 yaml 配置文件实现

dataset: _component_: torchtune.datasets.preference_dataset source: json data_files: my_preference_dataset.json column_map: chosen: chosen_conversations rejected: rejected_conversations train_on_input: False split: train

返回：

从源配对数据构建的偏好数据集。

返回类型：

PreferenceDataset

preference_dataset¶

文档

教程

资源