快捷方式

ChosenRejectedToMessages

class torchtune.data.ChosenRejectedToMessages(train_on_input: bool = False, column_map: Optional[Dict[str, str]] = None, new_system_prompt: Optional[str] = None)[source]

用于将包含对话的带有“chosen”和“rejected”列的数据集中的单个样本转换为已选和已拒绝消息列表的转换器。例如

|  chosen                                |  rejected                              |
|----------------------------------------|----------------------------------------|
| [{"role": "user", "content": Q1},      | [{"role": "user", "content": Q1},      |
|  {"role": "assistant", "content": A1}] |  {"role": "assistant", "content": A2}] |

将被转换为

chosen = [
    Message(role="user", content="Q1"),
    Message(role="assistant", content="A1"),
]
rejected = [
    Message(role="user", content="Q1"),
    Message(role="assistant", content="A2"),
]

单个样本通常包含一个可选的系统提示以及一个或多个轮次的用户和助手消息。

参数:
  • train_on_input (bool) – 是否在用户 prompt 上进行模型训练。默认为 False。

  • column_map (Optional[Dict[str, str]]) – 一个映射,用于将预期的“chosen”和“rejected”列名更改为数据集中实际的列名。键应为“chosen”和“rejected”,值应为实际的列名。默认为 None,保留默认列名。

  • new_system_prompt (Optional[str]) – 如果指定,则预置一个系统消息。这可以作为指导模型响应的指令。设置此项将 OVERRIDE(覆盖)数据集中已有的任何系统消息。默认为 None。

抛出:

ValueError – 如果提供了 column_map 并且 chosen 不在 column_map 中,或者 rejected 不在 column_map 中。

文档

查阅 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源