torchtune.data¶

文本模板¶

用于指令式 prompt 和聊天 prompt 的模板。包含针对不同数据集和模型的特定格式设置。

`GrammarErrorCorrectionTemplate`	用于语法纠错任务的 prompt 模板。
`SummarizeTemplate`	用于摘要任务的 prompt 模板。
`QuestionAnswerTemplate`	用于问答任务的 prompt 模板。
`PromptTemplate`	通过传入一个将角色映射到前置和后置标签的字典，快速定义自定义 prompt 模板。例如，要实现以下 prompt 模板::。
`PromptTemplateInterface`	prompt 模板的接口。
`ChatMLTemplate`	OpenAI 的聊天标记语言 (Chat Markup Language)，由其聊天模型使用。

`Message`	此类表示微调数据集中的单个消息。
`Role`	Literal['system', 'user', 'assistant', 'ipython'] 的别名

将来自通用 schema 和对话 JSON 格式的数据转换为 torchtune Message 的列表。

`InputOutputToMessages`	消息转换类，将包含 "input" 和 "output" 字段（或 column_map 中指定的等效字段）的单个样本分别转换为用户消息和助手消息。这对于具有两列数据集非常有用，一列包含用户 prompt 字符串，另一列包含模型响应字符串::。
`ShareGPTToMessages`	将符合 ShareGPT JSON 结构的单个聊天样本转换为 torchtune 的 Message 结构。
`OpenAIToMessages`	将符合 OpenAI 聊天补全 JSON 结构的单个聊天样本转换为 torchtune 的 Message 结构。
`ChosenRejectedToMessages`	用于将来自包含对话的“chosen”和“rejected”列的数据集的单个样本转换为 chosen 和 rejected 消息列表的转换。例如::。
`AlpacaToMessages`	适用于包含“instruction”、“input”和“output”（或 column_map 中指定的等效字段）列的 Alpaca 风格数据集的消息转换类。

用于将样本收集到批次中并处理任何填充的整理器。

`padded_collate`	一个通用的填充整理函数，它从给定的 pad_direction 对序列批次中的 keys_to_pad 条目进行填充，以达到批次中每个条目的最大序列长度。
`padded_collate_tiled_images_and_mask`	填充一批文本序列、平铺图像张量、宽高比和交叉注意力掩码。
`padded_collate_sft`	将一批序列填充到批次中最长的序列长度，并将整数列表转换为张量。
`padded_collate_dpo`	为直接偏好优化 (DPO) 填充一批序列。
`left_pad_sequence`	此函数与 torch.nn.utils.rnn.pad_sequence() 相同，但从左侧填充可变长度张量列表到最长序列的长度。

在修改数据时使用的各种辅助函数。

`validate_messages`	给定消息列表，确保消息构成有效的来回对话。
`truncate`	将令牌列表截断到最大长度。
`load_image`	从本地文件路径或远程源加载 PIL 格式图像的便捷方法。
`format_content_with_images`	给定原始文本字符串，按指定的 image_tag 分割，并形成字典列表，用于 Message content 字段。