快捷方式

PreferenceDataset

class torchtune.datasets.PreferenceDataset(*, source: str, message_transform: Transform, tokenizer: ModelTokenizer, **load_dataset_kwargs: Dict[str, Any])[源代码]

用于通过偏好建模技术(例如,为 RLHF 训练偏好模型,或通过 DPO 直接优化模型)对来自 Hugging Face Hub、本地文件或远程文件的偏好数据集进行微调的主要类。此类要求数据集具有“已选择”和“已拒绝”的模型响应。这些通常是分别位于不同列中的用户和助手之间的完整对话

|  chosen                                |  rejected                              |
|----------------------------------------|----------------------------------------|
| [{"role": "user", "content": Q1},      | [{"role": "user", "content": Q1},      |
|  {"role": "assistant", "content": A1}] |  {"role": "assistant", "content": A2}] |

或包含用户提示列以及单独的已选择和已拒绝助手响应

|  prompt  |  chosen  |  rejected  |
|----------|----------|------------|
|  Q1      |  A1      |  A2        |

在上述情况下,当格式为提示-已选择-已拒绝时,仅支持单轮交互。

在高级别上,此类将从源加载数据,并在检索样本时应用以下预处理步骤

  1. 特定于数据集的转换。这通常是每个数据集独有的,并将必要的提示和已选择/已拒绝列提取到 torchtune 的 Message 格式中,这是所有模型分词器的标准化 API。

  2. 使用可选提示模板进行分词(如果已配置)

所有数据集都格式化为 Message 列表,因为偏好数据集可以被视为模型或 AI 助手已选择和已拒绝的“对话”。因此,我们可以将所有文本内容标准化为对话中分配给角色的消息

  • "user" 消息包含输入模型的提示

  • "assistant" 消息是模型的响应,以及您实际想要训练并直接针对其计算损失的内容

Message 构成所有分词器 API 期望的核心数据单元。此类确保任何数据集都转换为此格式的关键组件是 message_transform。这是一个可调用类,它接收一个样本字典(通常是源数据集中的单行),以任何可配置的方式处理样本,以输出消息列表

[
    Message(
        role=<system|user|assistant|ipython>,
        content=<message>,
    ),
    ...
]

对于任何自定义数据集,请使用 message_transform 包含所有预处理以返回消息列表。

参数:
  • source (str) – Hugging Face 上数据集存储库的路径。对于本地数据集,将 source 定义为数据文件类型(例如“json”、“csv”、“text”),并在 data_files 中传入文件路径。有关更多详细信息,请参阅 Hugging Face 的 load_dataset

  • message_transform (Transform) – 可调用对象,用于获取样本中的所需字段并将文本内容转换为 Message 列表。预期最终的消息列表存储在 "chosen""rejected" 键中。

  • tokenizer (ModelTokenizer) – 模型使用的分词器,实现了 tokenize_messages 方法。由于 PreferenceDataset 仅支持文本数据,因此它需要 ModelTokenizer 而不是 SFTDataset 中的 model_transform

  • **load_dataset_kwargs (Dict[str, Any]) – 要传递给 load_dataset 的其他关键字参数。有关更多详细信息,请参阅 Hugging Face 的 API 参考

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源