数据集概述¶ torchtune 允许您使用在 Hugging Face Hub 上找到的、本地下载的或远程 URL 上的任何数据集微调 LLM 和 VLM。我们提供内置数据集构建器,以帮助您快速启动微调项目,以支持指示调优、偏好对齐、继续预训练等工作流程。除此之外,torchtune 允许您完全自定义数据集管道,让您能够使用任何数据格式或架构进行训练。 支持以下任务 文本监督微调 指示数据集 聊天数据集 多模态监督微调 多模态数据集 RLHF 偏好数据集 继续预训练 文本完成数据集 数据管道¶ 从原始数据样本到训练食谱中的模型输入,所有 torchtune 数据集都遵循相同的管道 从 Hugging Face 数据集、本地文件或远程文件一次查询一个样本的原始数据 消息转换 将原始样本(可以采用任何格式)转换为 torchtune 消息 列表。图像包含在它们关联的消息对象中。 多模态转换 对消息应用模型特定的转换,包括分词(参见 分词器)、提示模板化(参见 提示模板)、图像转换以及特定模型所需的任何其他转换。 收集器将处理后的样本一起打包成一个批次,然后在训练期间将该批次传递给模型。