torchaudio.prototype.models.emformer_hubert_model¶
- torchaudio.prototype.models.emformer_hubert_model(extractor_input_dim: int, extractor_output_dim: int, extractor_use_bias: bool, extractor_stride: int, encoder_input_dim: int, encoder_output_dim: int, encoder_num_heads: int, encoder_ffn_dim: int, encoder_num_layers: int, encoder_segment_length: int, encoder_left_context_length: int, encoder_right_context_length: int, encoder_dropout: float, encoder_activation: str, encoder_max_memory_size: int, encoder_weight_init_scale_strategy: Optional[str], encoder_tanh_on_mem: bool, aux_num_out: Optional[int]) Wav2Vec2Model [source]¶
构建自定义的 Emformer HuBERT 模型。
- 参数:
extractor_input_dim (int) – 特征提取器的输入维度。
extractor_output_dim (int) – 特征提取器之后的输出维度。
extractor_use_bias (bool) – 如果
True
,则在特征提取器的线性层中启用偏置参数。extractor_stride (int) – 特征提取器中要合并以获得输出帧的帧数。
encoder_input_dim (int) – Emformer 层的输入维度。
encoder_output_dim (int) – EmformerEncoder 之后的输出维度。
encoder_num_heads (int) – 每个 Emformer 层中注意力头的数量。
encoder_ffn_dim (int) – Emformer 中前馈网络的隐藏层维度。
encoder_num_layers (int) – 要实例化的 Emformer 层数。
encoder_segment_length (int) – 每个输入段的长度。
encoder_left_context_length (int) – 左侧上下文的长度。
encoder_right_context_length (int) – 右侧上下文的长度。
encoder_dropout (float) – Dropout 概率。
encoder_activation (str) – 在每个 Emformer 层的前馈网络中使用的激活函数。必须是 (“relu”, “gelu”, “silu”) 之一。
encoder_max_memory_size (int) – 要使用的最大内存元素数量。
encoder_weight_init_scale_strategy (str 或 None) – 每层权重初始化缩放策略。必须是 (“depthwise”, “constant”,
None
) 之一。encoder_tanh_on_mem (bool) – 如果
True
,则对内存元素应用 tanh 函数。aux_num_out (int 或 None) – 当提供时,在编码器顶部附加一个额外的线性层,可用于微调。
- 返回:
生成的
torchaudio.models.Wav2Vec2Model
模型,带有一个torchaudio.models.Emformer
编码器。- 返回类型: