快捷方式

数据集概览

torchtune 允许您使用 Hugging Face Hub 上找到的任何数据集、本地下载的数据集或远程 URL 上的数据集来微调 LLM 和 VLM。我们提供内置的数据集构建器,以帮助您快速启动微调项目,用于包括指令调优、偏好对齐、持续预训练等工作流程。除此之外,torchtune 还允许您完全自定义数据集管道,让您可以使用任何数据格式或模式进行训练。

支持以下任务

数据管道

../_images/torchtune_datasets.svg

从原始数据样本到训练配方中的模型输入,所有 torchtune 数据集都遵循相同的管道

  1. 原始数据一次从 Hugging Face 数据集、本地文件或远程文件查询一个样本

  2. 消息转换 将可以采用任何格式的原始样本转换为 torchtune 消息 列表。图像包含在与其关联的消息对象中。

  3. 多模态转换 将模型特定的转换应用于消息,包括分词化(参见 分词器)、提示模板(参见 提示模板)、图像转换以及该特定模型所需的任何其他内容。

  4. 收集器将处理后的样本打包到一个批次中,该批次在训练期间传递到模型中。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源