• 文档 >
  • torchtext.data.utils
快捷方式

torchtext.data.utils

get_tokenizer

torchtext.data.utils.get_tokenizer(tokenizer, language='en')[source]

为字符串句子生成分词器函数。

参数::
  • tokenizer – 分词器函数的名称。如果为 None,则返回 split() 函数,该函数按空格拆分字符串句子。如果为 basic_english,则返回 _basic_english_normalize() 函数,该函数先对字符串进行规范化,然后按空格拆分。如果为可调用函数,则将返回该函数。如果为分词器库(例如 spacy、moses、toktok、revtok、subword),则返回相应的库。

  • language – 默认值为 en

示例

>>> import torchtext
>>> from torchtext.data import get_tokenizer
>>> tokenizer = get_tokenizer("basic_english")
>>> tokens = tokenizer("You can now install TorchText using pip!")
>>> tokens
>>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']

ngrams_iterator

torchtext.data.utils.ngrams_iterator(token_list, ngrams)[source]

返回一个迭代器,该迭代器生成给定的标记及其 ngram。

参数::
  • token_list – 标记列表

  • ngrams – ngram 的数量。

示例

>>> token_list = ['here', 'we', 'are']
>>> list(ngrams_iterator(token_list, 2))
>>> ['here', 'here we', 'we', 'we are', 'are']

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源