目录

快捷方式

BaseTokenizer¶

class torchtune.modules.transforms.tokenizers.BaseTokenizer(*args, **kwargs)[source]¶

实现 encode 和 decode 方法的抽象 token 编码模型。参阅 SentencePieceBaseTokenizer 和 TikTokenBaseTokenizer 了解此协议的实现示例。

decode(token_ids: List[int], **kwargs: Dict[str, Any]) → str[source]¶

给定一个 token ID 列表，返回解码后的文本，可选地包含特殊 token。

参数:

token_ids (List[int]) – 要解码的 token ID 列表。
**kwargs (Dict[str, Any]) – 关键字参数。

返回:

解码后的文本。

返回类型:

encode(text: str, **kwargs: Dict[str, Any]) → List[int][source]¶

给定一个字符串，返回编码后的 token ID 列表。

参数:

text (str) – 要编码的文本。
**kwargs (Dict[str, Any]) – 关键字参数。

返回:

编码后的 token ID 列表。

返回类型:

List[int]

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

获取初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并解答问题

查看资源