torchtune.data¶
文本模板¶
指令提示和聊天提示的模板。包括一些针对不同数据集和模型的特定格式。
用于语法错误纠正任务的提示模板。 |
|
用于摘要任务的提示模板。 |
|
用于问题回答任务的提示模板。 |
|
通过传入字典来快速定义自定义提示模板,该字典将角色映射到 prepend 和 append 标签。例如,要实现以下提示模板::。 |
|
提示模板的接口。 |
|
OpenAI 的 聊天标记语言,由其聊天模型使用。 |
类型¶
此类表示微调数据集中的单个消息。 |
|
别名 |
消息变换¶
将来自通用模式和对话 JSON 格式的数据转换为 torchtune Message
的列表。
消息变换类,用于将具有“input”和“output”字段(或 column_map 中指定的等效字段)的单个样本分别转换为用户和助手消息。这对于具有两列的数据集很有用,一列包含用户提示字符串,另一列包含模型响应字符串::。 |
|
将符合 ShareGPT JSON 结构的单个聊天样本转换为 torchtune 的 |
|
将符合 OpenAI 聊天完成 JSON 结构的单个聊天样本转换为 torchtune 的 |
|
用于转换来自具有“chosen”和“rejected”列的数据集的单个样本的变换,这些列包含到首选和拒绝消息列表的对话。例如::。 |
|
Alpaca 风格数据集的消息变换类,具有“instruction”、“input”和“output”(或 column_map 中指定的等效字段)列。 |
Collaters¶
用于将样本收集到批次中并处理任何填充的 Collaters。
通用填充整理函数,用于从给定的 |
|
填充一批文本序列、平铺图像张量、宽高比和交叉注意力掩码。 |
|
将一批序列填充到批次中最长的序列长度,并将整数列表转换为张量。 |
|
为直接偏好优化 (DPO) 填充一批序列。 |
|
此函数与 |
辅助函数¶
用于修改数据的各种辅助函数。
给定消息列表,确保消息形成有效的来回对话。 |
|
将令牌列表截断为最大长度。 |
|
从本地文件路径或远程源以 PIL 格式加载图像的便捷方法。 |
|
给定原始文本字符串,按指定的 |