Wav2Vec2Model¶

class torchaudio.models.Wav2Vec2Model(feature_extractor: Module, encoder: Module, aux: Optional[Module] = None)[source]¶

在 wav2vec 2.0 [Baevski et al., 2020] 中使用的声学模型。

注意

要构建此模型，请使用其中一个工厂函数。

另请参阅

参数:

使用 Wav2Vec2Model 的教程: 使用 Wav2Vec2 进行语音识别

使用 Wav2Vec2 进行语音识别

使用 CTC 解码器进行 ASR 推理

使用 CTC 解码器进行 ASR 推理

使用 Wav2Vec2 进行强制对齐

使用 Wav2Vec2 进行强制对齐

方法¶

Wav2Vec2Model.forward(waveforms: Tensor, lengths: Optional[Tensor] = None) → Tuple[Tensor, Optional[Tensor]][source]¶

计算标签的概率分布序列。

参数:

waveforms (Tensor) – 形状为 (batch, frames) 的音频张量。
lengths (Tensor 或 None, 可选) – 指示批次中每个音频的有效长度。形状：(batch, )。当 waveforms 包含不同时长的音频时，通过提供 lengths 参数，模型将计算相应的有效输出长度并在 Transformer 注意力层应用适当的掩码。如果为 None，则假定 waveforms 中的所有音频都具有有效长度。默认值：None。

返回:

Tensor: 标签的概率分布序列（logit）。形状：(batch, frames, num labels)。
Tensor 或 None: 如果提供了 lengths 参数，则返回一个形状为 (batch, ) 的 Tensor。它指示输出 Tensor 在时间轴上的有效长度。

返回类型:

(Tensor, Optional[Tensor])

Wav2Vec2Model.extract_features(waveforms: Tensor, lengths: Optional[Tensor] = None, num_layers: Optional[int] = None) → Tuple[List[Tensor], Optional[Tensor]][source]¶

从原始波形中提取特征向量

这返回编码器中 Transformer 块中间层的输出列表。

参数:

waveforms (Tensor) – 形状为 (batch, frames) 的音频张量。
lengths (Tensor 或 None, 可选) – 指示批次中每个音频的有效长度。形状：(batch, )。当 waveforms 包含不同时长的音频时，通过提供 lengths 参数，模型将计算相应的有效输出长度并在 Transformer 注意力层应用适当的掩码。如果为 None，则假定整个音频波形长度均有效。
num_layers (int 或 None, 可选) – 如果提供，限制通过的中间层数量。提供 1 将在通过一个中间层后停止计算。如果未提供，则返回所有中间层的输出。

返回:

Tensor 列表: 来自所请求层的特征。每个 Tensor 的形状为：(batch, time frame, feature dimension)
Tensor 或 None: 如果提供了 lengths 参数，则返回一个形状为 (batch, ) 的 Tensor。它指示每个特征 Tensor 在时间轴上的有效长度。

返回类型:

(List[Tensor], Optional[Tensor])

`wav2vec2_model`	构建自定义 `Wav2Vec2Model`。
`wav2vec2_base`	从 wav2vec 2.0 [Baevski et al., 2020] 构建“base” `Wav2Vec2Model`
`wav2vec2_large`	从 wav2vec 2.0 [Baevski et al., 2020] 构建“large” `Wav2Vec2Model`
`wav2vec2_large_lv60k`	从 wav2vec 2.0 [Baevski et al., 2020] 构建“large lv-60k” `Wav2Vec2Model`
`wav2vec2_xlsr_300m`	构建具有 3 亿参数的 XLS-R 模型 [Babu et al., 2021]。
`wav2vec2_xlsr_1b`	构建具有 10 亿参数的 XLS-R 模型 [Babu et al., 2021]。
`wav2vec2_xlsr_2b`	构建具有 20 亿参数的 XLS-R 模型 [Babu et al., 2021]。
`hubert_base`	从 HuBERT [Hsu et al., 2021] 构建“base” `HuBERT`
`hubert_large`	从 HuBERT [Hsu et al., 2021] 构建“large” `HuBERT`
`hubert_xlarge`	从 HuBERT [Hsu et al., 2021] 构建“extra large” `HuBERT`
`wavlm_model`	构建自定义 WaveLM 模型 [Chen et al., 2022]。
`wavlm_base`	构建“base” WaveLM 模型 [Chen et al., 2022]。
`wavlm_large`	构建“large” WaveLM 模型 [Chen et al., 2022]。

`emformer_hubert_model`	构建自定义 Emformer HuBERT 模型。
`emformer_hubert_base`	构建具有 20 个 Emformer 层的 Emformer HuBERT 模型。
`conformer_wav2vec2_model`	构建自定义 Conformer Wav2Vec2Model
`conformer_wav2vec2_base`	从 Conformer-Based Slef-Supervised Learning for Non-Speech Audio Tasks [Srivastava et al., 2022] 构建具有“small”架构的 Conformer Wav2Vec2 模型

`import_fairseq_model`	从 fairseq 的相应模型对象构建 `Wav2Vec2Model`。
`import_huggingface_model`	从 Transformers 的相应模型对象构建 `Wav2Vec2Model`。