消息转换¶

消息转换负责将数据集中原始的样本字典转换为 torchtune 的 Message 结构。一旦数据被表示为 Message，torchtune 将处理分词并为模型准备数据。

配置消息转换¶

我们大多数内置的消息转换都包含用于控制输入掩码 (train_on_input)、添加系统提示 (new_system_prompt) 和更改预期列名 (column_map) 的参数。这些参数在我们的数据集构建器 instruct_dataset() 和 chat_dataset() 中暴露，因此您无需担心消息转换本身，可以直接从配置中进行设置。更多详细信息请参见指令数据集示例或对话数据集示例。

自定义消息转换¶

如果我们的内置消息转换不适合您的特定数据集，您可以创建自己的类，具有完全的灵活性。只需继承 Transform 类，并在 __call__ 方法中添加您的代码即可。

一个简单的虚构示例是，将数据集中的一列作为用户消息，另一列作为模型响应。实际上，这与 InputOutputToMessages 非常相似。

from torchtune.modules.transforms import Transform
from torchtune.data import Message
from typing import Any, Mapping
from pprint import pprint

class MessageTransform(Transform):
    def __call__(self, sample: Mapping[str, Any]) -> Mapping[str, Any]:
        messages = [
            Message(
                role="user",
                content=sample["input"],
                masked=True,
                eot=True,
            ),
            Message(
                role="assistant",
                content=sample["output"],
                masked=False,
                eot=True,
            ),
        ]
        return {"messages": messages}

input_sample = {"input": "hello world", "output": "bye world"}
transform = MessageTransform()
output_sample = transform(input_sample)
pprint(output_sample)
# {'messages': [Message(role='user', content=['hello world']),
#               Message(role='assistant', content=['bye world'])]}

有关如何操作 Message 对象的更多详细信息，请参阅创建消息。

要在您的数据集上使用此方法，您必须创建一个使用底层数据集类 SFTDataset 的自定义数据集构建器。

# In data/dataset.py
from torchtune.datasets import SFTDataset

def custom_dataset(tokenizer, **load_dataset_kwargs) -> SFTDataset:
    message_transform = MyMessageTransform()
    return SFTDataset(
        source="json",
        data_files="data/my_data.json",
        split="train",
        message_transform=message_transform,
        model_transform=tokenizer,
        **load_dataset_kwargs,
    )

这可以直接从配置中使用。

dataset:
  _component_: data.dataset.custom_dataset

消息转换示例¶

指令
- InputOutputToMessages
- AlpacaToMessages
对话
- ShareGPTToMessages
- OpenAIToMessages
偏好
- ChosenRejectedToMessages

消息转换¶

配置消息转换¶

自定义消息转换¶

消息转换示例¶

文档

教程

资源