快捷方式

数据集概述

torchtune 允许您使用在 Hugging Face Hub 上找到的、本地下载的或远程 URL 上的任何数据集微调 LLM 和 VLM。我们提供内置数据集构建器,以帮助您快速启动微调项目,以支持指示调优、偏好对齐、继续预训练等工作流程。除此之外,torchtune 允许您完全自定义数据集管道,让您能够使用任何数据格式或架构进行训练。

支持以下任务

数据管道

../_images/torchtune_datasets.svg

从原始数据样本到训练食谱中的模型输入,所有 torchtune 数据集都遵循相同的管道

  1. 从 Hugging Face 数据集、本地文件或远程文件一次查询一个样本的原始数据

  2. 消息转换 将原始样本(可以采用任何格式)转换为 torchtune 消息 列表。图像包含在它们关联的消息对象中。

  3. 多模态转换 对消息应用模型特定的转换,包括分词(参见 分词器)、提示模板化(参见 提示模板)、图像转换以及特定模型所需的任何其他转换。

  4. 收集器将处理后的样本一起打包成一个批次,然后在训练期间将该批次传递给模型。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获得面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源