快捷方式

ModelTokenizer

class torchtune.modules.transforms.tokenizers.ModelTokenizer(*args, **kwargs)[source]

实现模型特定特殊标记逻辑的抽象分词器,逻辑在 tokenize_messages 方法中。请参阅 Llama3Tokenizer 了解此协议的示例实现。

tokenize_messages(messages: List[Message], **kwargs: Dict[str, Any]) Tuple[List[int], List[bool]][source]

给定消息列表,返回拼接和格式化后的消息的标记列表和掩码列表。

参数:
  • messages (List[Message]) – 要分词的消息列表。

  • **kwargs (Dict[str, Any]) – 关键字参数。

返回值:

标记 ID 列表和掩码列表。

返回类型:

Tuple[List[int], List[bool]]

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获取问题解答

查看资源