torchtext.data.utils¶
get_tokenizer¶
- torchtext.data.utils.get_tokenizer(tokenizer, language='en')[source]¶
为字符串句子生成分词器函数。
- 参数::
tokenizer – 分词器函数的名称。如果为 None,则返回 split() 函数,该函数按空格拆分字符串句子。如果为 basic_english,则返回 _basic_english_normalize() 函数,该函数先对字符串进行规范化,然后按空格拆分。如果为可调用函数,则将返回该函数。如果为分词器库(例如 spacy、moses、toktok、revtok、subword),则返回相应的库。
language – 默认值为 en
示例
>>> import torchtext >>> from torchtext.data import get_tokenizer >>> tokenizer = get_tokenizer("basic_english") >>> tokens = tokenizer("You can now install TorchText using pip!") >>> tokens >>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']