快捷方式

torchtune.datasets

有关详细的通用使用指南,请参阅 数据集概览

文本数据集

torchtune 支持多种广泛使用的纯文本数据集,以帮助您快速启动微调工作。

alpaca_dataset

支持来自 Hugging Face Datasets 的 Alpaca 风格数据集系列,使用来自原始 alpaca 代码库的 数据输入格式提示模板,其中 instructioninputoutput 是数据集中的字段。

alpaca_cleaned_dataset

这是 Alpaca 风格数据集的一个变体构建器,使用了原始 Alpaca 数据集的清理版本,yahma/alpaca-cleaned

grammar_dataset

支持来自 Hugging Face Datasets 的语法纠错数据集及其变体。

hh_rlhf_helpful_dataset

构建与 Anthropic 的 helpful/harmless RLHF 数据 类似的偏好数据集。

samsum_dataset

支持来自 Hugging Face Datasets 的文本摘要数据集及其变体。

slimorca_dataset

支持 SlimOrca 风格 的对话数据集系列。

stack_exchange_paired_dataset

Stack Exchange Paired 数据集 类似的偏好数据集系列。

cnn_dailymail_articles_dataset

支持与 CNN / DailyMail 类似的数据集系列,这是一个新闻文章语料库。

wikitext_dataset

支持与 wikitext 类似的数据集系列,这是一个包含维基百科完整文章的非结构化文本语料库。

图像 + 文本数据集

multimodal.llava_instruct_dataset

支持来自 Hugging Face Datasets 的与 LLaVA-Instruct-150K 类似的图像 + 文本数据集系列。

multimodal.the_cauldron_dataset

支持来自 Hugging Face Datasets 的与 The Cauldron 类似的图像 + 文本数据集系列。

multimodal.vqa_dataset

配置一个自定义的可视问答数据集,其中包含用户问题、图像和模型响应的独立列。

通用数据集构建器

torchtune 还支持用于常见格式(如聊天模型和指令模型)的通用数据集构建器。这些对于从 YAML 配置中进行指定特别有用。

instruct_dataset

配置一个包含用户指令提示和模型响应的自定义数据集。

chat_dataset

配置一个包含用户和模型助手之间对话的自定义数据集。

preference_dataset

配置一个由用户和模型助手之间互动组成的自定义偏好数据集。

text_completion_dataset

从自由形式、非结构化的文本语料库构建一个可配置的数据集,类似于预训练中使用的数据集。

通用数据集类

上述数据集构建器的类表示形式。

TextCompletionDataset

用于任何非结构化文本语料库的自由形式数据集。

ConcatDataset

一个用于将多个子数据集连接成单个数据集的数据集类。

PackedDataset

对提供的数据集执行贪婪样本打包。

PreferenceDataset

用于通过偏好建模技术(例如,为 RLHF 训练偏好模型,或通过 DPO 直接优化模型)在源自 Hugging Face Hub、本地文件或远程文件的偏好数据集上进行微调的主要类。此类要求数据集包含“chosen”和“rejected”模型响应。这些通常是用户和助手之间在独立列中的完整对话::。

SFTDataset

用于从 Hugging Face Hub、本地文件或远程文件创建用于监督微调的任何数据集的主要类。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源