tokenize_messages_no_special_tokens¶

torchtune.modules.tokenizers.tokenize_messages_no_special_tokens(tokenizer: ModelTokenizer, messages: List[Message], *, bos_id: Optional[int] = None, eos_id: Optional[int] = None) → Tuple[List[int], List[bool]][source]¶

一次对消息列表进行分词，然后将它们连接起来，返回标记列表和掩码列表。除了 BOS 和 EOS（如果提供），不添加任何特殊标记。这可以作为不严重依赖特殊标记的模型分词器的常见起点。

示例

>>> messages = [
...     Message(role="system", content="system message\n", masked=True),
...     Message(role="user", content="user prompt\n", masked=True),
...     Message(role="assistant", content="assistant response\n"),
... ]
# tokenize_messages encodes messages separately and concats
>>> tokens = tokenize_messages_no_special_tokens(
...     tokenizer,
...     messages,
...     bos_id=tokenizer.bos_id,
...     eos_id=tokenizer.eos_id,
... )[0]
>>> print(tokens)
[1, 1788, 2643, 13, 1792, 9508, 13, 465, 22137, 2933, 2]
# Same result as encoding the full string in one go
>>> print(tokenizer.encode(''.join([message.content for message in messages])))
[1, 1788, 2643, 13, 1792, 9508, 13, 465, 22137, 2933, 2]

参数:

tokenizer (ModelTokenizer) – 用于编码消息的分词器。
messages (List[Message]) – 消息列表，每个消息都包含角色、内容和掩码属性。
bos_id (Optional[int]) – 序列开始标记 ID。如果为 None，则不添加 BOS 标记。默认为 None。
eos_id (Optional[int]) – 序列结束标记 ID。如果为 None，则不添加 EOS 标记。默认为 None。

返回:

分词后的消息。

返回类型:

Tuple[List[int], List[bool]]

引发:

RuntimeError – 如果 messages 中的任何消息不满足 message['type'] == 'text'。

tokenize_messages_no_special_tokens¶

文档

教程

资源