快捷方式

BaseTokenizer

class torchtune.modules.tokenizers.BaseTokenizer(*args, **kwargs)[source]

实现 encodedecode 方法的抽象标记编码模型。有关此协议的示例实现,请参见 SentencePieceBaseTokenizerTikTokenBaseTokenizer

decode(token_ids: List[int], **kwargs: Dict[str, Any]) str[source]

给定一个标记 ID 列表,返回解码后的文本,可以选择包括特殊标记。

参数::
  • token_ids (List[int]) – 要解码的标记 ID 列表。

  • **kwargs (Dict[str, Any]) – kwargs。

返回值:

解码后的文本。

返回类型:

str

encode(text: str, **kwargs: Dict[str, Any]) List[int][source]

给定一个字符串,返回编码后的标记 ID 列表。

参数::
  • text (str) – 要编码的文本。

  • **kwargs (Dict[str, Any]) – kwargs。

返回值:

编码后的标记 ID 列表。

返回类型:

List[int]

文档

访问 PyTorch 的综合开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源