torchtune.data¶
文本模板¶
用于指示提示和聊天提示的模板。包括一些针对不同数据集和模型的特定格式。
用于指示模板的接口。 |
|
Alpaca 风格数据集的提示模板。 |
|
用于语法校正数据集的提示模板。 |
|
提示模板,用于将数据集格式化为摘要任务。 |
|
类似于 StackExchangedPaired 的偏好数据集的提示模板。 |
|
用于聊天格式的接口。 |
|
OpenAI 的 聊天标记语言,由他们的聊天模型使用。 |
|
聊天格式,使用 Llama2 预训练中使用的适当标签格式化人和系统提示。 |
|
根据 Mistral 的指示模型 格式化。 |
类型¶
此数据类表示指令或聊天数据集中单个消息。 |
转换器¶
将数据从常见的 JSON 格式转换为 torchtune Message
。
将遵循 ShareGPT json 结构的聊天样本转换为 torchtune 的 |
|
将遵循 OpenAI API json 结构的聊天样本转换为 torchtune 的 |
辅助函数¶
用于修改数据的各种辅助函数。
给定一个消息列表,确保消息形成有效的来回对话。 |
|
将令牌列表截断到最大长度。 |