torchaudio.models.wavlm_model¶
- torchaudio.models.wavlm_model(extractor_mode: str, extractor_conv_layer_config: Optional[List[Tuple[int, int, int]]], extractor_conv_bias: bool, encoder_embed_dim: int, encoder_projection_dropout: float, encoder_pos_conv_kernel: int, encoder_pos_conv_groups: int, encoder_num_layers: int, encoder_num_heads: int, encoder_num_buckets: int, encoder_max_distance: int, encoder_attention_dropout: float, encoder_ff_interm_features: int, encoder_ff_interm_dropout: float, encoder_dropout: float, encoder_layer_norm_first: bool, encoder_layer_drop: float, aux_num_out: Optional[int]) Wav2Vec2Model [源代码]¶
构建自定义 WaveLM 模型 [Chen 等人,2022]。该架构与 Wav2Vec2 模型兼容 [Baevski 等人,2020],因此输出对象为
Wav2Vec2Model
。大多数参数与wav2vec2_model()
中的参数含义相同,因此请参阅该文档了解详情。- 参数:
extractor_mode (str) – 特征提取器的操作模式。请参阅
wav2vec2_model()
。extractor_conv_layer_config (python:整数元组列表 或 None) – 请参见
wav2vec2_model()
。extractor_conv_bias (bool) – 请参见
wav2vec2_model()
。encoder_embed_dim (int) – 请参见
wav2vec2_model()
。encoder_projection_dropout (float) – 请参见
wav2vec2_model()
。encoder_pos_conv_kernel (int) – 请参见
wav2vec2_model()
。encoder_pos_conv_groups (int) – 请参见
wav2vec2_model()
。encoder_num_layers (int) – 请参见
wav2vec2_model()
。encoder_num_heads (int) – 请参见
wav2vec2_model()
。encoder_num_buckets (int) – 相对位置嵌入的桶数。
encoder_max_distance (int) – 相对位置嵌入的最大距离。
encoder_attention_dropout (float) – 请参见
wav2vec2_model()
。encoder_ff_interm_features (int) – 请参见
wav2vec2_model()
。encoder_ff_interm_dropout (float) – 请参见
wav2vec2_model()
。encoder_dropout (float) – 请参见
wav2vec2_model()
。encoder_layer_norm_first (bool) – 请参见
wav2vec2_model()
。encoder_layer_drop (float) – 请参见
wav2vec2_model()
。aux_num_out (int 或 None) – 请参见
wav2vec2_model()
。
- 返回:
生成的模型。
- 返回类型: