目录

快捷方式

HuggingFaceBaseTokenizer¶

class torchtune.modules.transforms.tokenizers.HuggingFaceBaseTokenizer(tokenizer_json_path: str, *, tokenizer_config_json_path: Optional[str] = None, generation_config_path: Optional[str] = None)[source]¶

Hugging Face 分词器的包装器。请参阅 https://github.com/huggingface/tokenizers 这可用于将 Hugging Face tokenizer.json 文件加载到 torchtune BaseTokenizer 中。

此类别将从 tokenizer_json_path 加载 tokenizer.json 文件。如果可能，它将尝试从 config.json 推断 BOS 和 EOS 词元 ID，否则将回退到从 generation_config.json 推断。

参数:

tokenizer_json_path (str) – tokenizer.json 文件的路径
tokenizer_config_json_path (Optional[str]) – tokenizer_config.json 文件的路径。默认值：None
generation_config_path (Optional[str]) – generation_config.json 文件的路径。默认值：None

引发:

ValueError – 如果既未指定 tokenizer_config_json_path 也未指定 generation_config_path。

decode(token_ids: List[int]) → str[source]¶

将词元 ID 列表解码为字符串。

参数:: token_ids (List[int]) – 词元 ID 列表。
返回:: 解码后的字符串。
返回类型:: str

encode(text: str, add_bos: bool = True, add_eos: bool = True) → List[int][source]¶

将字符串编码为词元 ID 列表。

参数:

text (str) – 要编码的文本。
add_bos (bool) – 是否将分词器的 bos_id 添加到编码字符串。默认值 True。
add_eos (bool) – 是否将分词器的 eos_id 添加到编码字符串。默认值 True。

返回:

词元 ID 列表。

返回类型:

List[int]

文档

查阅 PyTorch 全面的开发者文档

查看文档

教程

获取针对初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并解答您的疑问

查看资源