BaseTokenizer¶ class torchtune.modules.transforms.tokenizers.BaseTokenizer(*args, **kwargs)[source]¶ 实现 encode 和 decode 方法的抽象 token 编码模型。参阅 SentencePieceBaseTokenizer 和 TikTokenBaseTokenizer 了解此协议的实现示例。 decode(token_ids: List[int], **kwargs: Dict[str, Any]) → str[source]¶ 给定一个 token ID 列表,返回解码后的文本,可选地包含特殊 token。 参数: token_ids (List[int]) – 要解码的 token ID 列表。 **kwargs (Dict[str, Any]) – 关键字参数。 返回: 解码后的文本。 返回类型: str encode(text: str, **kwargs: Dict[str, Any]) → List[int][source]¶ 给定一个字符串,返回编码后的 token ID 列表。 参数: text (str) – 要编码的文本。 **kwargs (Dict[str, Any]) – 关键字参数。 返回: 编码后的 token ID 列表。 返回类型: List[int]