数据集概览¶ torchtune 允许您使用 Hugging Face Hub 上找到的任何数据集、本地下载的数据集或远程 URL 上的数据集来微调 LLM 和 VLM。我们提供内置的数据集构建器,以帮助您快速启动微调项目,用于包括指令调优、偏好对齐、持续预训练等工作流程。除此之外,torchtune 还允许您完全自定义数据集管道,让您可以使用任何数据格式或模式进行训练。 支持以下任务 文本监督微调 指令数据集 聊天数据集 多模态监督微调 多模态数据集 RLHF 偏好数据集 持续预训练 文本补全数据集 数据管道¶ 从原始数据样本到训练配方中的模型输入,所有 torchtune 数据集都遵循相同的管道 原始数据一次从 Hugging Face 数据集、本地文件或远程文件查询一个样本 消息转换 将可以采用任何格式的原始样本转换为 torchtune 消息 列表。图像包含在与其关联的消息对象中。 多模态转换 将模型特定的转换应用于消息,包括分词化(参见 分词器)、提示模板(参见 提示模板)、图像转换以及该特定模型所需的任何其他内容。 收集器将处理后的样本打包到一个批次中,该批次在训练期间传递到模型中。