ModelTokenizer¶ class torchtune.modules.tokenizers.ModelTokenizer(*args, **kwargs)[source]¶ 抽象分词器,在 tokenize_messages 方法中实现了模型特定的特殊标记逻辑。请参阅 Llama3Tokenizer 以了解此协议的示例实现。 tokenize_messages(messages: List[Message], **kwargs: Dict[str, Any]) → Tuple[List[int], List[bool]][source]¶ 给定一个消息列表,返回连接并格式化后的消息的标记列表和掩码列表。 参数: messages (List[Message]) – 要分词的消息列表。 **kwargs (Dict[str, Any]) – 关键字参数。 返回值: 标记 ID 列表和掩码列表。 返回类型: Tuple[List[int], List[bool]]