快捷方式

torchaudio.prototype.models.conformer_rnnt_model

torchaudio.prototype.models.conformer_rnnt_model(*, input_dim: int, encoding_dim: int, time_reduction_stride: int, conformer_input_dim: int, conformer_ffn_dim: int, conformer_num_layers: int, conformer_num_heads: int, conformer_depthwise_conv_kernel_size: int, conformer_dropout: float, num_symbols: int, symbol_embedding_dim: int, num_lstm_layers: int, lstm_hidden_dim: int, lstm_layer_norm: int, lstm_layer_norm_epsilon: int, lstm_dropout: int, joiner_activation: str) RNNT[source]

构建基于 Conformer 的循环神经网络转导器 (RNN-T) 模型。

参数: :
  • input_dim (int) – 传递到转录网络的输入序列帧的维度。

  • encoding_dim (int) – 传递到联合网络的转录网络和预测网络生成的编码的维度。

  • time_reduction_stride (int) – 用于缩短输入序列长度的因子。

  • conformer_input_dim (int) – Conformer 输入的维度。

  • conformer_ffn_dim (int) – 每个 Conformer 层的前馈网络的隐藏层维度。

  • conformer_num_layers (int) – 要实例化的 Conformer 层数。

  • conformer_num_heads (int) – 每个 Conformer 层中的注意力头的数量。

  • conformer_depthwise_conv_kernel_size (int) – 每个 Conformer 层的深度卷积层的内核大小。

  • conformer_dropout (float) – Conformer 丢弃概率。

  • num_symbols (int) – 目标标记集的基数。

  • symbol_embedding_dim (int) – 每个目标标记嵌入的维度。

  • num_lstm_layers (int) – 要实例化的 LSTM 层数。

  • lstm_hidden_dim (int) – 每个 LSTM 层的输出维度。

  • lstm_layer_norm (bool) – 如果为 True,则为 LSTM 层启用层归一化。

  • lstm_layer_norm_epsilon (float) – LSTM 层归一化层中使用的 epsilon 值。

  • lstm_dropout (float) – LSTM 丢弃概率。

  • joiner_activation (str) – 在连接器中使用的激活函数。必须是以下之一:(“relu”, “tanh”)。 (默认值: “relu”)

  • Returns

    RNNT

    Conformer RNN-T 模型。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源