快捷方式

数据集概览

torchtune 允许您使用 Hugging Face Hub 上、本地下载或远程 URL 上的任何数据集来微调大型语言模型 (LLM) 和视觉语言模型 (VLM)。我们提供了内置的数据集构建器,可帮助您快速启动微调项目,支持的工作流程包括指令微调、偏好对齐、持续预训练等。除此之外,torchtune 还为您的数据集管道提供了全面的可定制性,允许您训练任何数据格式或模式。

支持以下任务:

数据管道

../_images/torchtune_datasets.svg

从原始数据样本到训练范例中的模型输入,所有 torchtune 数据集都遵循相同的管道:

  1. 原始数据逐个样本从 Hugging Face 数据集、本地文件或远程文件中查询

  2. 消息转换 将可以采用任何格式的原始样本转换为 torchtune 消息 列表。图像包含在其关联的消息对象中。

  3. 多模态转换 对消息应用特定于模型的转换,包括分词(参见 分词器)、提示模板化(参见 提示模板)、图像转换以及该特定模型所需的任何其他内容。

  4. Collater 将处理后的样本打包成一个批次,并在训练期间将该批次传递给模型。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源