torchtune.datasets¶

有关详细的通用使用指南，请参阅数据集概览。

文本数据集¶

torchtune 支持多种广泛使用的纯文本数据集，以帮助您快速启动微调工作。

`alpaca_dataset`	支持来自 Hugging Face Datasets 的 Alpaca 风格数据集系列，使用来自原始 alpaca 代码库的数据输入格式和提示模板，其中 `instruction`、`input` 和 `output` 是数据集中的字段。
`alpaca_cleaned_dataset`	这是 Alpaca 风格数据集的一个变体构建器，使用了原始 Alpaca 数据集的清理版本，yahma/alpaca-cleaned。
`grammar_dataset`	支持来自 Hugging Face Datasets 的语法纠错数据集及其变体。
`hh_rlhf_helpful_dataset`	构建与 Anthropic 的 helpful/harmless RLHF 数据类似的偏好数据集。
`samsum_dataset`	支持来自 Hugging Face Datasets 的文本摘要数据集及其变体。
`slimorca_dataset`	支持 SlimOrca 风格的对话数据集系列。
`stack_exchange_paired_dataset`	与 Stack Exchange Paired 数据集类似的偏好数据集系列。
`cnn_dailymail_articles_dataset`	支持与 CNN / DailyMail 类似的数据集系列，这是一个新闻文章语料库。
`wikitext_dataset`	支持与 wikitext 类似的数据集系列，这是一个包含维基百科完整文章的非结构化文本语料库。

`multimodal.llava_instruct_dataset`	支持来自 Hugging Face Datasets 的与 LLaVA-Instruct-150K 类似的图像 + 文本数据集系列。
`multimodal.the_cauldron_dataset`	支持来自 Hugging Face Datasets 的与 The Cauldron 类似的图像 + 文本数据集系列。
`multimodal.vqa_dataset`	配置一个自定义的可视问答数据集，其中包含用户问题、图像和模型响应的独立列。

torchtune 还支持用于常见格式（如聊天模型和指令模型）的通用数据集构建器。这些对于从 YAML 配置中进行指定特别有用。

`instruct_dataset`	配置一个包含用户指令提示和模型响应的自定义数据集。
`chat_dataset`	配置一个包含用户和模型助手之间对话的自定义数据集。
`preference_dataset`	配置一个由用户和模型助手之间互动组成的自定义偏好数据集。
`text_completion_dataset`	从自由形式、非结构化的文本语料库构建一个可配置的数据集，类似于预训练中使用的数据集。

上述数据集构建器的类表示形式。

`TextCompletionDataset`	用于任何非结构化文本语料库的自由形式数据集。
`ConcatDataset`	一个用于将多个子数据集连接成单个数据集的数据集类。
`PackedDataset`	对提供的数据集执行贪婪样本打包。
`PreferenceDataset`	用于通过偏好建模技术（例如，为 RLHF 训练偏好模型，或通过 DPO 直接优化模型）在源自 Hugging Face Hub、本地文件或远程文件的偏好数据集上进行微调的主要类。此类要求数据集包含“chosen”和“rejected”模型响应。这些通常是用户和助手之间在独立列中的完整对话::。
`SFTDataset`	用于从 Hugging Face Hub、本地文件或远程文件创建用于监督微调的任何数据集的主要类。