torchtune.datasets¶

有关详细的通用使用指南，请参阅我们的数据集教程.

示例数据集¶

torchtune 支持几个广泛使用的数据集，以帮助快速引导您的微调。

`alpaca_dataset`	支持来自 Hugging Face Datasets 的 Alpaca 风格数据集系列，使用数据输入格式和提示模板来自原始 alpaca 代码库，其中 `instruction`、`input` 和 `output` 是来自数据集的字段。
`alpaca_cleaned_dataset`	原始 Alpaca 数据集的清理版本的 Alpaca 风格数据集变体构建器，yahma/alpaca-cleaned.
`grammar_dataset`	支持来自 Hugging Face Datasets 的语法校正数据集及其变体。
`samsum_dataset`	支持来自 Hugging Face Datasets 的摘要数据集及其变体。
`slimorca_dataset`	支持 SlimOrca 风格的对话数据集系列。
`stack_exchanged_paired_dataset`	与 StackExchangePaired 数据类似的偏好数据集系列。
`cnn_dailymail_articles_dataset`	支持类似于 CNN / DailyMail 的数据集系列，这是一个新闻文章语料库。
`wikitext_dataset`	支持类似于 wikitext 的数据集系列，这是一个由维基百科文章组成的非结构化文本语料库。

torchtune 还支持通用数据集构建器，用于常见的格式，例如聊天模型和指令模型。这些对于从 YAML 配置中指定特别有用。

`instruct_dataset`	使用指令提示构建可配置的数据集。
`chat_dataset`	使用对话构建可配置的数据集。
`text_completion_dataset`	从类似于预训练中使用的数据集的自由格式非结构化文本语料库构建可配置的数据集。

上述数据集构建器的类表示。

`InstructDataset`	支持任何具有基于指令的提示和可配置模板的自定义数据集的类。
`ChatDataset`	支持任何具有多轮对话的自定义数据集的类。
`TextCompletionDataset`	任何非结构化文本语料库的自由格式数据集。
`ConcatDataset`	将多个子数据集连接到单个数据集中的数据集类。
`PackedDataset`	对提供的数据集执行贪婪样本打包。
`PreferenceDataset`	支持任何具有基于指令的提示和可配置模板的自定义数据集的类。