快捷方式

ConformerWav2Vec2PretrainModel

class torchaudio.prototype.models.ConformerWav2Vec2PretrainModel(wav2vec2: Wav2Vec2Model, mask_generator: Module, negative_sampler: Module)[source]

用于从头开始训练的 Conformer Wav2Vec2 预训练模型。

注意

要构建模型,请使用以下工厂函数之一:conformer_wav2vec2_base()conformer_wav2vec2_large()

参数:
  • wav2vec2 (nn.Module) – 基于 Conformer 的 Wav2Vec2 模型,包括特征提取器和 Conformer 编码器组件。

  • mask_generator (nn.Module) – 掩码生成器,用于在训练期间生成用于掩码预测的掩码。

  • negative_sampler (nn.Module) – 负样本采样器,在掩码后应用。

方法

前向传播

ConformerWav2Vec2PretrainModel.forward(features: Tensor, audio_lengths: Optional[Tensor] = None) Tuple[Tensor, Optional[Tensor], Tensor, Tensor][source]
参数:
  • features (Tensor) – 形状为 (batch, frame, dim) 的音频特征张量。

  • audio_lengths (TensorNone, 可选) – 批次中每个有效音频的有效长度张量。形状:(batch, )(默认值:None

返回值:

张量

形状为 (batch, frame dim) 的概率分布掩码序列。

张量或 None

如果提供了 lengths 参数,则返回形状为 (batch, ) 的张量,表示时间轴上的有效长度。

张量

掩码索引。

张量

目标,在负样本采样之前。

张量

负样本。

张量

负样本的索引。

返回类型:

(Tensor, Optional[Tensor], Tensor, Tensor, Tensor, Tensor)

工厂函数

conformer_wav2vec2_pretrain_model

构建用于预训练的自定义 Conformer Wav2Vec2 模型

conformer_wav2vec2_pretrain_base

构建用于预训练的 Conformer Wav2Vec2 模型,使用来自 基于 Conformer 的非语音音频任务自监督学习 [Srivastava 等人,2022] 的“小型”架构。

conformer_wav2vec2_pretrain_large

构建用于预训练的 Conformer Wav2Vec2 模型,使用来自 基于 Conformer 的非语音音频任务自监督学习 [Srivastava 等人,2022] 的“大型”架构。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源