torchaudio.models.emformer_rnnt_model¶
- torchaudio.models.emformer_rnnt_model(*, input_dim: int, encoding_dim: int, num_symbols: int, segment_length: int, right_context_length: int, time_reduction_input_dim: int, time_reduction_stride: int, transformer_num_heads: int, transformer_ffn_dim: int, transformer_num_layers: int, transformer_dropout: float, transformer_activation: str, transformer_left_context_length: int, transformer_max_memory_size: int, transformer_weight_init_scale_strategy: str, transformer_tanh_on_mem: bool, symbol_embedding_dim: int, num_lstm_layers: int, lstm_layer_norm: bool, lstm_layer_norm_epsilon: float, lstm_dropout: float) RNNT [source]¶
构建基于 Emformer 的
RNNT
.注意
对于非流式推理,期望对与 right_context_length 帧右连接的输入序列调用 transcribe。
对于流式推理,期望对包含 segment_length 帧与 right_context_length 帧右连接的输入块调用 transcribe_streaming。
- 参数:
input_dim (int) – 传递到转录网络的输入序列帧的维度。
encoding_dim (int) – 传递到联合网络的转录和预测网络生成的编码的维度。
num_symbols (int) – 目标标记集的基数。
segment_length (int) – 以帧数表示的输入段长度。
right_context_length (int) – 以帧数表示的右上下文长度。
time_reduction_input_dim (int) – 在应用时间缩减块之前,将输入序列中的每个元素缩放到的维度。
time_reduction_stride (int) – 用于缩减输入序列长度的因子。
transformer_num_heads (int) – 每个 Emformer 层中的注意力头的数量。
transformer_ffn_dim (int) – 每个 Emformer 层的 feedforward 网络的隐藏层维度。
transformer_num_layers (int) – 要实例化的 Emformer 层数。
transformer_left_context_length (int) – Emformer 考虑的左侧上下文长度。
transformer_dropout (float) – Emformer 的 dropout 概率。
transformer_activation (str) – 在每个 Emformer 层的 feedforward 网络中使用的激活函数。必须是以下之一:(“relu”, “gelu”, “silu”)。
transformer_max_memory_size (int) – 要使用的最大内存元素数量。
transformer_weight_init_scale_strategy (str) – 每层权重初始化缩放策略。必须是以下之一:(“depthwise”, “constant”,
None
)。transformer_tanh_on_mem (bool) – 如果为
True
,则对内存元素应用 tanh 函数。symbol_embedding_dim (int) – 每个目标 token 嵌入的维度。
num_lstm_layers (int) – 要实例化的 LSTM 层数。
lstm_layer_norm (bool) – 如果为
True
,则为 LSTM 层启用层归一化。lstm_layer_norm_epsilon (float) – 在 LSTM 层归一化层中使用的 epsilon 值。
lstm_dropout (float) – LSTM 的 dropout 概率。
- 返回:
Emformer RNN-T 模型。
- 返回类型: