HuggingFaceBaseTokenizer¶
- class torchtune.modules.transforms.tokenizers.HuggingFaceBaseTokenizer(tokenizer_json_path: str, *, tokenizer_config_json_path: Optional[str] = None, generation_config_path: Optional[str] = None)[source]¶
Hugging Face 分词器的包装器。请参阅 https://github.com/huggingface/tokenizers 这可用于将 Hugging Face tokenizer.json 文件加载到 torchtune BaseTokenizer 中。
此类别将从 tokenizer_json_path 加载 tokenizer.json 文件。如果可能,它将尝试从 config.json 推断 BOS 和 EOS 词元 ID,否则将回退到从 generation_config.json 推断。
- 参数:
- 引发:
ValueError – 如果既未指定 tokenizer_config_json_path 也未指定 generation_config_path。