ConformerWav2Vec2PretrainModel¶

class torchaudio.prototype.models.ConformerWav2Vec2PretrainModel(wav2vec2: Wav2Vec2Model, mask_generator: Module, negative_sampler: Module)[source]¶

用于从头开始训练的 Conformer Wav2Vec2 预训练模型。

注意

要构建模型，请使用以下工厂函数之一：conformer_wav2vec2_base() 或 conformer_wav2vec2_large()

参数：

wav2vec2 (nn.Module) – 基于 Conformer 的 Wav2Vec2 模型，包括特征提取器和 Conformer 编码器组件。
mask_generator (nn.Module) – 用于在训练期间为 masked prediction 生成掩码的掩码生成器。
negative_sampler (nn.Module) – 在掩码后应用的负采样器。

方法¶

forward¶

ConformerWav2Vec2PretrainModel.forward(features: Tensor, audio_lengths: Optional[Tensor] = None) → Tuple[Tensor, Optional[Tensor], Tensor, Tensor][source]¶

参数：

features (Tensor) – 形状为 (batch, frame, dim) 的音频特征张量。
audio_lengths (Tensor 或 None, 可选) – 批量中每个有效音频的有效长度张量。形状：(batch, ) (默认值：None)

返回值：

Tensor: 形状为 (batch, frame dim) 的概率分布的掩码序列。
Tensor 或 None: 如果提供了 lengths 参数，则返回一个形状为 (batch, ) 的张量，表示时间轴上的有效长度。
Tensor: 掩码索引。
Tensor: 目标值，在负采样之前。
Tensor: 负样本。
Tensor: 负样本的索引。

返回类型：

(Tensor, Optional[Tensor], Tensor, Tensor, Tensor, Tensor)

工厂函数¶

`conformer_wav2vec2_pretrain_model`	构建一个用于预训练的自定义 Conformer Wav2Vec2 模型
`conformer_wav2vec2_pretrain_base`	使用 Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks 中“小型”架构构建用于预训练的 Conformer Wav2Vec2 模型 [Srivastava 等, 2022]
`conformer_wav2vec2_pretrain_large`	使用 Conformer-Based Slef-Supervised Learning for Non-Speech Audio Tasks 中“大型”架构构建用于预训练的 Conformer Wav2Vec2 模型 [Srivastava 等, 2022]

ConformerWav2Vec2PretrainModel¶

方法¶

forward¶

工厂函数¶

文档

教程

资源