torchtune.data¶
文本模板¶
指令提示和聊天提示的模板。包括针对不同数据集和模型的一些特定格式。
用于语法错误更正任务的提示模板。 |
|
用于摘要任务的提示模板。 |
|
用于问答任务的提示模板。 |
|
通过传入一个将角色映射到前缀和后缀标签的字典,快速定义一个自定义提示模板。例如,要实现以下提示模板::. |
|
提示模板接口。 |
|
OpenAI 的 聊天标记语言,由他们的聊天模型使用。 |
|
类型¶
此类表示微调数据集中单个消息。 |
|
别名 |
转换器¶
将数据从常见的 JSON 格式转换为 torchtune Message
。
消息转换¶
将数据从常见的模式和对话 JSON 格式转换为 torchtune Message
列表。
消息转换类,将具有“input”和“output”字段(或在 column_map 中指定的等效字段)的单个样本分别转换为用户和助手消息。这对于具有两列的数据集很有用,一列包含用户提示字符串,另一列包含模型响应字符串::. |
|
将遵循 ShareGPT JSON 结构的单个聊天样本转换为 torchtune 的 |
|
将遵循 OpenAI 聊天补全 JSON 结构的单个聊天样本转换为 torchtune 的 |
|
转换,用于将来自具有包含对话的“chosen”和“rejected”列的数据集的单个样本转换为选定消息和拒绝消息列表。例如::. |
整理器¶
用于将样本收集到批次中并处理任何填充的整理器。
一个通用的填充整理函数,它从给定的 |
|
填充一批文本序列、平铺的图像张量、纵横比和交叉注意掩码。 |
|
将一批序列填充到批次中最长的序列长度,并将整数列表转换为张量。 |
|
为直接偏好优化 (DPO) 填充一批序列。 |
|
此函数与 |
辅助函数¶
用于修改数据的各种辅助函数。
给定一个消息列表,确保消息构成一个有效的来回对话。 |
|
将令牌列表截断到最大长度。 |
|
便捷方法,用于从本地文件路径或远程源加载 PIL 格式的图像。 |
|
给定一个原始文本字符串,按指定的 |