快捷方式

Wav2Vec2ASRBundle

class torchaudio.pipelines.Wav2Vec2ASRBundle[source]

数据类,用于捆绑相关信息以使用预训练的 Wav2Vec2Model

此类提供了接口,用于实例化预训练模型以及检索预训练权重和与模型一起使用所需的附加数据所需的信息。

Torchaudio 库实例化此类的对象,每个对象代表一个不同的预训练模型。客户端代码应该通过这些实例访问预训练模型。

请参阅以下内容以了解用法和可用值。

示例 - ASR
>>> import torchaudio
>>>
>>> bundle = torchaudio.pipelines.HUBERT_ASR_LARGE
>>>
>>> # Build the model and load pretrained weight.
>>> model = bundle.get_model()
Downloading:
100%|███████████████████████████████| 1.18G/1.18G [00:17<00:00, 73.8MB/s]
>>>
>>> # Check the corresponding labels of the output.
>>> labels = bundle.get_labels()
>>> print(labels)
('-', '|', 'E', 'T', 'A', 'O', 'N', 'I', 'H', 'S', 'R', 'D', 'L', 'U', 'M', 'W', 'C', 'F', 'G', 'Y', 'P', 'B', 'V', 'K', "'", 'X', 'J', 'Q', 'Z')
>>>
>>> # Resample audio to the expected sampling rate
>>> waveform = torchaudio.functional.resample(waveform, sample_rate, bundle.sample_rate)
>>>
>>> # Infer the label probability distribution
>>> emissions, _ = model(waveform)
>>>
>>> # Pass emission to decoder
>>> # `ctc_decode` is for illustration purpose only
>>> transcripts = ctc_decode(emissions, labels)
使用 Wav2Vec2ASRBundle 的教程
Speech Recognition with Wav2Vec2

使用 Wav2Vec2 进行语音识别

使用 Wav2Vec2 进行语音识别
ASR Inference with CTC Decoder

使用 CTC 解码器进行 ASR 推理

使用 CTC 解码器进行 ASR 推理
Forced Alignment with Wav2Vec2

使用 Wav2Vec2 进行强制对齐

使用 Wav2Vec2 进行强制对齐

属性

sample_rate

property Wav2Vec2ASRBundle.sample_rate: float

模型训练所用音频的采样率。

类型:

float

方法

get_labels

Wav2Vec2ASRBundle.get_labels(*, blank: str = '-') Tuple[str, ...][source]

输出类别标签。

第一个是空白标记,它可以自定义。

参数:

blank (str, 可选) – 空白标记。 (默认:'-')

返回值:

对于在 ASR 上微调的模型,返回表示输出类别标签的字符串元组。

返回类型:

Tuple[str, …]

示例
>>> from torchaudio.pipelines import HUBERT_ASR_LARGE as bundle
>>> bundle.get_labels()
('-', '|', 'E', 'T', 'A', 'O', 'N', 'I', 'H', 'S', 'R', 'D', 'L', 'U', 'M', 'W', 'C', 'F', 'G', 'Y', 'P', 'B', 'V', 'K', "'", 'X', 'J', 'Q', 'Z')

get_model

Wav2Vec2ASRBundle.get_model(*, dl_kwargs=None) Module

构造模型并加载预训练权重。

权重文件从互联网下载,并使用 torch.hub.load_state_dict_from_url() 缓存。

参数:

dl_kwargs (关键字参数字典) – 传递给 torch.hub.load_state_dict_from_url()

返回值:

Wav2Vec2Model 的变体。

对于下面列出的模型,将在输入上执行额外的层归一化。

对于所有其他模型,将返回一个 Wav2Vec2Model 实例。

  • WAV2VEC2_LARGE_LV60K

  • WAV2VEC2_ASR_LARGE_LV60K_10M

  • WAV2VEC2_ASR_LARGE_LV60K_100H

  • WAV2VEC2_ASR_LARGE_LV60K_960H

  • WAV2VEC2_XLSR53

  • WAV2VEC2_XLSR_300M

  • WAV2VEC2_XLSR_1B

  • WAV2VEC2_XLSR_2B

  • HUBERT_LARGE

  • HUBERT_XLARGE

  • HUBERT_ASR_LARGE

  • HUBERT_ASR_XLARGE

  • WAVLM_LARGE

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获取问题解答

查看资源