快捷方式

Wav2Vec2Bundle

class torchaudio.pipelines.Wav2Vec2Bundle[source]

捆绑相关信息以使用预训练的 Wav2Vec2Model 的数据类。

此类提供接口,用于实例化预训练模型以及检索预训练权重和与模型一起使用的其他必要数据的信息。

Torchaudio 库实例化此类的对象,每个对象代表一个不同的预训练模型。客户端代码应通过这些实例访问预训练模型。

请参阅以下内容以了解用法和可用值。

示例 - 特征提取
>>> import torchaudio
>>>
>>> bundle = torchaudio.pipelines.HUBERT_BASE
>>>
>>> # Build the model and load pretrained weight.
>>> model = bundle.get_model()
Downloading:
100%|███████████████████████████████| 360M/360M [00:06<00:00, 60.6MB/s]
>>>
>>> # Resample audio to the expected sampling rate
>>> waveform = torchaudio.functional.resample(waveform, sample_rate, bundle.sample_rate)
>>>
>>> # Extract acoustic features
>>> features, _ = model.extract_features(waveform)

属性

采样率

property Wav2Vec2Bundle.sample_rate: float

模型训练所用音频的采样率。

类型:

float

方法

获取模型

Wav2Vec2Bundle.get_model(*, dl_kwargs=None) Module[source]

构建模型并加载预训练权重。

权重文件从互联网下载并使用 torch.hub.load_state_dict_from_url() 进行缓存

参数:

dl_kwargs (关键字参数字典) – 传递给 torch.hub.load_state_dict_from_url().

返回值:

Wav2Vec2Model 的变体。

对于下面列出的模型,在输入上执行额外的层归一化。

对于所有其他模型,将返回 Wav2Vec2Model 实例。

  • WAV2VEC2_LARGE_LV60K

  • WAV2VEC2_ASR_LARGE_LV60K_10M

  • WAV2VEC2_ASR_LARGE_LV60K_100H

  • WAV2VEC2_ASR_LARGE_LV60K_960H

  • WAV2VEC2_XLSR53

  • WAV2VEC2_XLSR_300M

  • WAV2VEC2_XLSR_1B

  • WAV2VEC2_XLSR_2B

  • HUBERT_LARGE

  • HUBERT_XLARGE

  • HUBERT_ASR_LARGE

  • HUBERT_ASR_XLARGE

  • WAVLM_LARGE

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源