torchtune.datasets¶
有关详细的常规使用指南,请参阅我们的 数据集教程。
文本数据集¶
torchtune 支持几个广泛使用的纯文本数据集,以帮助您快速启动微调。
支持来自 Hugging Face 数据集的 Alpaca 风格数据集系列,使用 数据输入格式 和 提示模板 来自原始 alpaca 代码库,其中 |
|
用于 Alpaca 风格数据集变体的构建器,使用原始 Alpaca 数据集的清理版本,yahma/alpaca-cleaned。 |
|
支持来自 Hugging Face 数据集的语法纠正数据集及其变体。 |
|
构建类似于 Anthropic 的 helpful/harmless RLHF 数据 的偏好数据集。 |
|
支持来自 Hugging Face 数据集的摘要数据集及其变体。 |
|
支持 SlimOrca 风格 的对话数据集系列。 |
|
类似于 Stack Exchange Paired 数据集 的偏好数据集系列。 |
|
支持类似于 CNN / DailyMail 的数据集系列,这是一个新闻文章语料库。 |
|
支持类似于 wikitext 的数据集系列,这是一个由维基百科完整文章组成的非结构化文本语料库。 |
图像 + 文本数据集¶
支持类似于来自 Hugging Face 数据集的 LLaVA-Instruct-150K 的图像 + 文本数据集系列。 |
|
支持类似于来自 Hugging Face 数据集的 The Cauldron 的图像 + 文本数据集系列。 |
通用数据集构建器¶
torchtune 还支持用于常见格式(如聊天模型和指令模型)的通用数据集构建器。这些对于从 YAML 配置中指定特别有用。
使用用户指令提示和模型响应配置自定义数据集。 |
|
使用用户和模型助手之间的对话配置自定义数据集。 |
|
配置一个自定义偏好数据集,包含用户和模型助手之间的交互。 |
|
从类似于预训练中使用的自由格式、非结构化文本语料库构建可配置的数据集。 |
通用数据集类¶
上述数据集构建器的类表示。
任何非结构化文本语料库的自由格式数据集。 |
|
用于将多个子数据集连接成单个数据集的数据集类。 |
|
对提供的数据集执行贪婪样本打包。 |
|
主要类,用于通过偏好建模技术(例如,训练用于 RLHF 的偏好模型,或通过 DPO 直接优化模型)对来自 Hugging Face Hub、本地文件或远程文件的偏好数据集进行微调。此类要求数据集具有“已选择”和“已拒绝”的模型响应。这些通常是用户和助手之间在单独列中的完整对话::。 |
|
主要类,用于从 Hugging Face Hub、本地文件或远程文件创建任何用于监督微调的数据集。 |