ModelTokenizer¶ class torchtune.modules.tokenizers.ModelTokenizer(*args, **kwargs)[source]¶ 实现了模型特定特殊 token 逻辑的抽象分词器,该逻辑在 tokenize_messages 方法中实现。有关此协议的示例实现,请参阅 Llama3Tokenizer。 tokenize_messages(messages: List[Message], **kwargs: Dict[str, Any]) → Tuple[List[int], List[bool]][source]¶ 给定消息列表,返回 tokens 列表和 masks 列表,用于连接和格式化的消息。 参数: messages (List[Message]) – 要分词的消息列表。 **kwargs (Dict[str, Any]) – kwargs。 返回: token id 列表和 masks 列表。 返回类型: Tuple[List[int], List[bool]]