ctc_decoder¶
- torchaudio.models.decoder.ctc_decoder(lexicon: Optional[str], tokens: Union[str, List[str]], lm: Optional[Union[str, CTCDecoderLM]] = None, lm_dict: Optional[str] = None, nbest: int = 1, beam_size: int = 50, beam_size_token: Optional[int] = None, beam_threshold: float = 50, lm_weight: float = 2, word_score: float = 0, unk_score: float = -inf, sil_score: float = 0, log_add: bool = False, blank_token: str = '-', sil_token: str = '|', unk_word: str = '<unk>') CTCDecoder [source]¶
构建一个
CTCDecoder
实例。- 参数:
lexicon (str 或 None) – 词典文件,包含可能的单词和对应的拼写。每行包含一个单词及其用空格分隔的拼写。如果为 None,则使用无词典解码。
tokens (str 或 List[str]) – 文件或列表,包含有效的标记。如果使用文件,则期望格式是映射到相同索引的标记位于同一行
lm (str, CTCDecoderLM 或 None, 可选) – KenLM 语言模型的路径,类型为 CTCDecoderLM 的自定义语言模型,或 None(如果未使用语言模型)
lm_dict (str 或 None, 可选) – 文件,包含用于 LM 的字典,每行一个单词,按 LM 索引排序。如果使用词典解码,lm_dict 中的条目也必须出现在词典文件中。如果为 None,则使用词典文件构建 LM 的字典。(默认:None)
nbest (int, 可选) – 要返回的最佳解码数量 (默认:1)
beam_size (int, 可选) – 每个解码步骤后要保存的最大假设数 (默认:50)
beam_size_token (int, 可选) – 每个解码步骤要考虑的最大标记数。如果为 None,则将其设置为总标记数 (默认:None)
beam_threshold (float, 可选) – 用于修剪假设的阈值 (默认:50)
lm_weight (float, 可选) – 语言模型的权重 (默认:2)
word_score (float, 可选) – 单词插入分数 (默认:0)
unk_score (float, 可选) – 未知单词插入分数 (默认:-inf)
sil_score (float, 可选) – 静音插入分数 (默认:0)
log_add (bool, 可选) – 是否在合并假设时使用 logadd (默认:False)
blank_token (str, 可选) – 与空白对应的标记 (默认:“-“)
sil_token (str, 可选) – 与静音对应的标记 (默认:“|”)
unk_word (str, 可选) – 与未知对应的单词 (默认:“<unk>”)
- 返回值:
解码器
- 返回类型:
- 示例
>>> decoder = ctc_decoder( >>> lexicon="lexicon.txt", >>> tokens="tokens.txt", >>> lm="kenlm.bin", >>> ) >>> results = decoder(emissions) # List of shape (B, nbest) of Hypotheses
- 使用
ctc_decoder
的教程 - 使用 CTC 解码器进行 ASR 推理