快捷方式

HuggingFaceBaseTokenizer

class torchtune.modules.transforms.tokenizers.HuggingFaceBaseTokenizer(tokenizer_json_path: str, *, tokenizer_config_json_path: Optional[str] = None, generation_config_path: Optional[str] = None)[source]

Hugging Face 分词器的包装器。请参阅 https://github.com/huggingface/tokenizers 这可用于将 Hugging Face tokenizer.json 文件加载到 torchtune BaseTokenizer 中。

此类别将从 tokenizer_json_path 加载 tokenizer.json 文件。如果可能,它将尝试从 config.json 推断 BOS 和 EOS 词元 ID,否则将回退到从 generation_config.json 推断。

参数:
  • tokenizer_json_path (str) – tokenizer.json 文件的路径

  • tokenizer_config_json_path (Optional[str]) – tokenizer_config.json 文件的路径。默认值:None

  • generation_config_path (Optional[str]) – generation_config.json 文件的路径。默认值:None

引发:

ValueError – 如果既未指定 tokenizer_config_json_path 也未指定 generation_config_path。

decode(token_ids: List[int]) str[source]

将词元 ID 列表解码为字符串。

参数:

token_ids (List[int]) – 词元 ID 列表。

返回:

解码后的字符串。

返回类型:

str

encode(text: str, add_bos: bool = True, add_eos: bool = True) List[int][source]

将字符串编码为词元 ID 列表。

参数:
  • text (str) – 要编码的文本。

  • add_bos (bool) – 是否将分词器的 bos_id 添加到编码字符串。默认值 True。

  • add_eos (bool) – 是否将分词器的 eos_id 添加到编码字符串。默认值 True。

返回:

词元 ID 列表。

返回类型:

List[int]

文档

查阅 PyTorch 全面的开发者文档

查看文档

教程

获取针对初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并解答您的疑问

查看资源