ConformerWav2Vec2PretrainModel¶
- class torchaudio.prototype.models.ConformerWav2Vec2PretrainModel(wav2vec2: Wav2Vec2Model, mask_generator: Module, negative_sampler: Module)[source]¶
Conformer Wav2Vec2 预训练模型,用于从头开始训练。
注意
要构建模型,请使用工厂函数
conformer_wav2vec2_base()
或conformer_wav2vec2_large()
- 参数:
wav2vec2 (nn.Module) – 基于 Conformer 的 Wav2Vec2 模型,包括特征提取器和 Conformer 编码器组件。
mask_generator (nn.Module) – 掩码生成器,用于在训练期间为掩码预测生成掩码。
negative_sampler (nn.Module) – 负采样器,在掩码后应用。
方法¶
forward¶
- ConformerWav2Vec2PretrainModel.forward(features: Tensor, audio_lengths: Optional[Tensor] = None) Tuple[Tensor, Optional[Tensor], Tensor, Tensor] [source]¶
- 参数:
features (Tensor) – 形状为 (batch, frame, dim) 的音频特征张量。
audio_lengths (Tensor 或 None, 可选) – 批次中每个有效音频的有效长度张量。形状:(batch, ) (默认值:
None
)
- 返回:
- Tensor
形状为 (batch, frame dim) 的掩码序列的概率分布。
- Tensor 或 None
如果提供了
lengths
参数,则返回形状为 (batch, ) 的张量,表示时间轴上的有效长度。- Tensor
掩码索引。
- Tensor
目标,在负采样之前。
- Tensor
负样本。
- Tensor
负样本的索引。
- 返回类型:
(Tensor, Optional[Tensor], Tensor, Tensor, Tensor, Tensor)
工厂函数¶
构建用于预训练的自定义 Conformer Wav2Vec2 模型 |
|
使用来自 Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [Srivastava et al., 2022] 的 “small” 架构构建用于预训练的 Conformer Wav2Vec2 模型 |
|
使用来自 Conformer-Based Slef-Supervised Learning for Non-Speech Audio Tasks [Srivastava et al., 2022] 的 “large” 架构构建用于预训练的 Conformer Wav2Vec2 模型 |