torchaudio.models.hubert_pretrain_model¶
- torchaudio.models.hubert_pretrain_model(extractor_mode: str, extractor_conv_layer_config: Optional[List[Tuple[int, int, int]]], extractor_conv_bias: bool, encoder_embed_dim: int, encoder_projection_dropout: float, encoder_pos_conv_kernel: int, encoder_pos_conv_groups: int, encoder_num_layers: int, encoder_num_heads: int, encoder_attention_dropout: float, encoder_ff_interm_features: int, encoder_ff_interm_dropout: float, encoder_dropout: float, encoder_layer_norm_first: bool, encoder_layer_drop: float, mask_prob: float, mask_selection: str, mask_other: float, mask_length: int, no_mask_overlap: bool, mask_min_space: int, mask_channel_prob: float, mask_channel_selection: str, mask_channel_other: float, mask_channel_length: int, no_mask_channel_overlap: bool, mask_channel_min_space: int, skip_masked: bool, skip_nomask: bool, num_classes: int, final_dim: int, feature_grad_mult: Optional[float]) HuBERTPretrainModel [source]¶
构建自定义的
HuBERTPretrainModel
用于从头开始训练注意
下面的“特征提取器”对应于原始
fairseq
实现中的 ConvFeatureExtractionModel。在 wav2vec 2.0 [Baevski et al., 2020] 论文中,这被称为“(卷积)特征编码器”。下面的“编码器”对应于 TransformerEncoder,在论文中被称为“Transformer”。
- 参数:
extractor_mode (str) –
特征提取器的操作模式。有效值为
"group_norm"
或"layer_norm"
。如果为"group_norm"
,则在第一个卷积块中应用单个归一化。否则,所有卷积块都将具有层归一化。此选项对应于
fairseq
中的extractor_mode
。extractor_conv_layer_config (python:integer 元组列表 或 None) –
特征提取器中卷积层的配置。卷积配置列表,即
[(output_channel, kernel_size, stride), ...]
如果提供
None
,则使用以下默认值。[ (512, 10, 5), (512, 3, 2), (512, 3, 2), (512, 3, 2), (512, 3, 2), (512, 2, 2), (512, 2, 2), ]
此选项对应于
fairseq
中的conv_feature_layers
。extractor_conv_bias (bool) –
是否在每个卷积运算中包含偏置项。
此选项对应于
fairseq
中的conv_bias
。encoder_embed_dim (int) –
编码器中嵌入的维度。
此选项对应于
fairseq
中的encoder_embed_dim
。encoder_projection_dropout (float) –
在输入特征投影到
encoder_embed_dim
后应用的 dropout 概率。此选项对应于
fairseq
中的dropout_input
。encoder_pos_conv_kernel (int) –
卷积位置嵌入的内核大小。
此选项对应于
fairseq
中的conv_pos
。encoder_pos_conv_groups (int) –
卷积位置嵌入的组数。
此选项对应于
fairseq
中的conv_pos_groups
。encoder_num_layers (int) –
Transformer 块中自注意力层的数量。
此选项对应于
fairseq
中的encoder_layers
。encoder_num_heads (int) –
自注意力层中的头数。
此选项对应于
fairseq
中的encoder_attention_heads
。encoder_attention_dropout (float) –
在自注意力层中的 softmax 之后应用的 dropout 概率。
此选项对应于
fairseq
中的attention_dropout
。encoder_ff_interm_features (int) –
前馈层中隐藏特征的维度。
此选项对应于
fairseq
中的encoder_ffn_embed_dim
。encoder_ff_interm_dropout (float) –
在前馈层中应用的 dropout 概率。
此选项对应于
fairseq
中的activation_dropout
。encoder_dropout (float) –
在前馈层末尾应用的 dropout 概率。
此选项对应于
fairseq
中的dropout
。encoder_layer_norm_first (bool) –
控制 Transformer 层和每个编码器层中层归一化的顺序。如果为 True,则在 Transformer 层中,在将特征馈送到编码器层之前应用层归一化。在编码器层中,在自注意力之前和之后应用两个层归一化。如果为 False,则在 Transformer 层中,在将特征馈送到编码器层之后应用层归一化。在编码器层中,在自注意力之后、前馈之前和之后应用两个层归一化。
此选项对应于
fairseq
中的layer_norm_first
。encoder_layer_drop (float) –
在训练期间丢弃每个编码器层的概率。
此选项对应于
fairseq
中的layerdrop
。mask_prob (float) –
每个 token 被选为要屏蔽的跨度起点的概率。这将乘以时间步数除以掩码跨度的长度,以屏蔽大约此百分比的所有元素。但是,由于重叠,实际数量会更小(除非 no_overlap 为 True)。
此选项对应于
fairseq
中的mask_prob
。mask_selection (str) –
如何选择掩码长度。选项:[
static
,uniform
,normal
,poisson
]。此选项对应于
fairseq
中的mask_selection
。mask_other (float) –
辅助掩码参数(用于更复杂分布)。
此选项对应于
fairseq
中的mask_other
。mask_length (int) –
掩码的长度。
此选项对应于
fairseq
中的mask_length
。no_mask_overlap (bool) –
是否允许掩码重叠。
此选项对应于
fairseq
中的no_mask_overlap
。mask_min_space (int) –
跨度之间的最小空间(如果启用无重叠)。
此选项对应于
fairseq
中的mask_min_space
。mask_channel_prob –
(float): 将特征替换为 0 的概率。
此选项对应于
fairseq
中的mask_channel_prob
。mask_channel_selection (str) –
如何为通道掩码选择掩码长度。选项:[
static
,uniform
,normal
,poisson
]。此选项对应于
fairseq
中的mask_channel_selection
。mask_channel_other (float) –
通道掩码的辅助掩码参数(用于更复杂分布)。
此选项对应于
fairseq
中的mask_channel_other
。mask_channel_length (int) –
通道掩码的跨度之间的最小空间(如果启用无重叠)。
此选项对应于
fairseq
中的mask_channel_length
。no_mask_channel_overlap (bool) –
是否允许通道掩码重叠。
此选项对应于
fairseq
中的no_mask_channel_overlap
。mask_channel_min_space (int) –
通道掩码的跨度之间的最小空间(如果启用无重叠)。
此选项对应于
fairseq
中的mask_channel_min_space
。skip_masked (bool) –
如果为 True,则跳过计算被掩码帧的损失。
此选项对应于
fairseq
中的skip_masked
。skip_nomask (bool) –
如果为 True,则跳过计算未被掩码帧的损失。
此选项对应于
fairseq
中的skip_nomask
。num_classes (int) – 标签中的类别数。
final_dim (int) –
将最终表示和目标投影到 final_dim。
此选项对应于
fairseq
中的final_dim
。feature_grad_mult (float 或 None) –
用于缩放卷积特征提取层梯度的因子。缩放因子不会影响前向传播。
此选项对应于
fairseq
中的feature_grad_mult
。
- 返回:
生成的模型。
- 返回类型: