Wav2Vec2Bundle¶

class torchaudio.pipelines.Wav2Vec2Bundle[source]¶

捆绑使用预训练 Wav2Vec2Model 所需关联信息的数据类。

该类提供了实例化预训练模型的接口，以及检索预训练权重和与模型一起使用的附加数据所需的信息。

Torchaudio 库实例化该类的对象，每个对象代表一个不同的预训练模型。客户端代码应通过这些实例访问预训练模型。

请参阅下方了解用法和可用值。

示例 - 特征提取

>>> import torchaudio
>>>
>>> bundle = torchaudio.pipelines.HUBERT_BASE
>>>
>>> # Build the model and load pretrained weight.
>>> model = bundle.get_model()
Downloading:
100%|███████████████████████████████| 360M/360M [00:06<00:00, 60.6MB/s]
>>>
>>> # Resample audio to the expected sampling rate
>>> waveform = torchaudio.functional.resample(waveform, sample_rate, bundle.sample_rate)
>>>
>>> # Extract acoustic features
>>> features, _ = model.extract_features(waveform)

属性¶

采样率¶

property Wav2Vec2Bundle.sample_rate: float¶

模型训练时使用的音频采样率。

类型：: float

方法¶

get_model¶

Wav2Vec2Bundle.get_model(*, dl_kwargs=None) → Module[source]¶

构建模型并加载预训练权重。

权重文件从互联网下载并使用 torch.hub.load_state_dict_from_url() 缓存。

参数：

dl_kwargs (关键字参数字典) – 传递给 torch.hub.load_state_dict_from_url()。

返回：

Wav2Vec2Model 的变体。

对于下方列出的模型，会对输入执行额外的层归一化。

对于所有其他模型，返回一个 Wav2Vec2Model 实例。

WAV2VEC2_LARGE_LV60K
WAV2VEC2_ASR_LARGE_LV60K_10M
WAV2VEC2_ASR_LARGE_LV60K_100H
WAV2VEC2_ASR_LARGE_LV60K_960H
WAV2VEC2_XLSR53
WAV2VEC2_XLSR_300M
WAV2VEC2_XLSR_1B
WAV2VEC2_XLSR_2B
HUBERT_LARGE
HUBERT_XLARGE
HUBERT_ASR_LARGE
HUBERT_ASR_XLARGE
WAVLM_LARGE

Wav2Vec2Bundle¶

属性¶

采样率¶

方法¶

get_model¶

文档

教程

资源