快捷方式

torchtune.data

文本模板

用于指令式 prompt 和聊天 prompt 的模板。包含针对不同数据集和模型的特定格式设置。

GrammarErrorCorrectionTemplate

用于语法纠错任务的 prompt 模板。

SummarizeTemplate

用于摘要任务的 prompt 模板。

QuestionAnswerTemplate

用于问答任务的 prompt 模板。

PromptTemplate

通过传入一个将角色映射到前置和后置标签的字典,快速定义自定义 prompt 模板。例如,要实现以下 prompt 模板::。

PromptTemplateInterface

prompt 模板的接口。

ChatMLTemplate

OpenAI 的聊天标记语言 (Chat Markup Language),由其聊天模型使用。

类型

Message

此类表示微调数据集中的单个消息。

Role

Literal['system', 'user', 'assistant', 'ipython'] 的别名

消息转换

将来自通用 schema 和对话 JSON 格式的数据转换为 torchtune Message 的列表。

InputOutputToMessages

消息转换类,将包含 "input" 和 "output" 字段(或 column_map 中指定的等效字段)的单个样本分别转换为用户消息和助手消息。这对于具有两列数据集非常有用,一列包含用户 prompt 字符串,另一列包含模型响应字符串::。

ShareGPTToMessages

将符合 ShareGPT JSON 结构的单个聊天样本转换为 torchtune 的 Message 结构。

OpenAIToMessages

将符合 OpenAI 聊天补全 JSON 结构的单个聊天样本转换为 torchtune 的 Message 结构。

ChosenRejectedToMessages

用于将来自包含对话的“chosen”和“rejected”列的数据集的单个样本转换为 chosen 和 rejected 消息列表的转换。例如::。

AlpacaToMessages

适用于包含“instruction”、“input”和“output”(或 column_map 中指定的等效字段)列的 Alpaca 风格数据集的消息转换类。

整理器

用于将样本收集到批次中并处理任何填充的整理器。

padded_collate

一个通用的填充整理函数,它从给定的 pad_direction 对序列批次中的 keys_to_pad 条目进行填充,以达到批次中每个条目的最大序列长度。

padded_collate_tiled_images_and_mask

填充一批文本序列、平铺图像张量、宽高比和交叉注意力掩码。

padded_collate_sft

将一批序列填充到批次中最长的序列长度,并将整数列表转换为张量。

padded_collate_dpo

为直接偏好优化 (DPO) 填充一批序列。

left_pad_sequence

此函数与 torch.nn.utils.rnn.pad_sequence() 相同,但从左侧填充可变长度张量列表到最长序列的长度。

辅助函数

在修改数据时使用的各种辅助函数。

validate_messages

给定消息列表,确保消息构成有效的来回对话。

truncate

将令牌列表截断到最大长度。

load_image

从本地文件路径或远程源加载 PIL 格式图像的便捷方法。

format_content_with_images

给定原始文本字符串,按指定的 image_tag 分割,并形成字典列表,用于 Message content 字段。

文档

获取 PyTorch 全面的开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源