快捷方式

torchtune.datasets

有关详细的通用使用指南,请参阅我们的 数据集教程.

示例数据集

torchtune 支持几个广泛使用的数据集,以帮助快速引导您的微调。

alpaca_dataset

支持来自 Hugging Face Datasets 的 Alpaca 风格数据集系列,使用 数据输入格式提示模板 来自原始 alpaca 代码库,其中 instructioninputoutput 是来自数据集的字段。

alpaca_cleaned_dataset

原始 Alpaca 数据集的清理版本的 Alpaca 风格数据集变体构建器,yahma/alpaca-cleaned.

grammar_dataset

支持来自 Hugging Face Datasets 的语法校正数据集及其变体。

samsum_dataset

支持来自 Hugging Face Datasets 的摘要数据集及其变体。

slimorca_dataset

支持 SlimOrca 风格 的对话数据集系列。

stack_exchanged_paired_dataset

StackExchangePaired 数据 类似的偏好数据集系列。

cnn_dailymail_articles_dataset

支持类似于 CNN / DailyMail 的数据集系列,这是一个新闻文章语料库。

wikitext_dataset

支持类似于 wikitext 的数据集系列,这是一个由维基百科文章组成的非结构化文本语料库。

通用数据集构建器

torchtune 还支持通用数据集构建器,用于常见的格式,例如聊天模型和指令模型。这些对于从 YAML 配置中指定特别有用。

instruct_dataset

使用指令提示构建可配置的数据集。

chat_dataset

使用对话构建可配置的数据集。

text_completion_dataset

从类似于预训练中使用的数据集的自由格式非结构化文本语料库构建可配置的数据集。

通用数据集类

上述数据集构建器的类表示。

InstructDataset

支持任何具有基于指令的提示和可配置模板的自定义数据集的类。

ChatDataset

支持任何具有多轮对话的自定义数据集的类。

TextCompletionDataset

任何非结构化文本语料库的自由格式数据集。

ConcatDataset

将多个子数据集连接到单个数据集中的数据集类。

PackedDataset

对提供的数据集执行贪婪样本打包。

PreferenceDataset

支持任何具有基于指令的提示和可配置模板的自定义数据集的类。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源