ConvEmformer¶

class torchaudio.prototype.models.ConvEmformer(input_dim: int, num_heads: int, ffn_dim: int, num_layers: int, segment_length: int, kernel_size: int, dropout: float = 0.0, ffn_activation: str = 'relu', left_context_length: int = 0, right_context_length: int = 0, max_memory_size: int = 0, weight_init_scale_strategy: Optional[str] = 'depthwise', tanh_on_mem: bool = False, negative_inf: float = -100000000.0, conv_activation: str = 'silu')[source]¶

实现了 Streaming Transformer Transducer based Speech Recognition Using Non-Causal Convolution [Shi et al., 2022] 中介绍的卷积增强流式 Transformer 架构。

参数：:

input_dim (int) – 输入维度。
num_heads (int) – 每个 ConvEmformer 层中的注意力头数量。
ffn_dim (int) – 每个 ConvEmformer 层的全连接前馈网络的隐藏层维度。
num_layers (int) – 要实例化的 ConvEmformer 层数量。
segment_length (int) – 每个输入段的长度。
kernel_size (int) – 卷积模块中使用的核大小。
dropout (float, 可选) – Dropout 概率。(默认值: 0.0)
ffn_activation (str, 可选) – 全连接前馈网络中使用的激活函数。必须是 (“relu”, “gelu”, “silu”) 之一。(默认值: “relu”)
left_context_length (int, 可选) – 左上下文长度。(默认值: 0)
right_context_length (int, 可选) – 右上下文长度。(默认值: 0)
max_memory_size (int, 可选) – 要使用的最大内存元素数量。(默认值: 0)
weight_init_scale_strategy (str 或 None, 可选) – 每层权重初始化缩放策略。必须是 (“depthwise”, “constant”, None) 之一。(默认值: “depthwise”)
tanh_on_mem (bool, 可选) – 如果为 True，则对内存元素应用 tanh。(默认值: False)
negative_inf (float, 可选) – 注意力权重中用于负无穷大的值。(默认值: -1e8)
conv_activation (str, 可选) – 卷积模块中使用的激活函数。必须是 (“relu”, “gelu”, “silu”) 之一。(默认值: “silu”)

示例

>>> conv_emformer = ConvEmformer(80, 4, 1024, 12, 16, 8, right_context_length=4)
>>> input = torch.rand(10, 200, 80)
>>> lengths = torch.randint(1, 200, (10,))
>>> output, lengths = conv_emformer(input, lengths)
>>> input = torch.rand(4, 20, 80)
>>> lengths = torch.ones(4) * 20
>>> output, lengths, states = conv_emformer.infer(input, lengths, None)

方法¶

forward¶

ConvEmformer.forward(input: Tensor, lengths: Tensor) → Tuple[Tensor, Tensor]¶

用于训练和非流式推理的前向传播。

B: 批量大小；T: 批量中最大输入帧数；D: 每帧的特征维度。

参数：:

input (torch.Tensor) – 使用右上下文帧在右侧填充的语音帧，形状为 (B, T + right_context_length, D)。
lengths (torch.Tensor) – 形状为 (B,)，其中第 i 个元素表示 input 中第 i 个批量元素的有效语音帧数。

返回值：:

Tensor: 输出帧，形状为 (B, T, D)。
Tensor: 输出长度，形状为 (B,)，其中第 i 个元素表示输出帧中第 i 个批量元素的有效帧数。

返回类型：:

(Tensor, Tensor)

infer¶

ConvEmformer.infer(input: Tensor, lengths: Tensor, states: Optional[List[List[Tensor]]] = None) → Tuple[Tensor, Tensor, List[List[Tensor]]]¶

用于流式推理的前向传播。

B: 批量大小；D: 每帧的特征维度。

参数：:

input (torch.Tensor) – 使用右上下文帧在右侧填充的语音帧，形状为 (B, segment_length + right_context_length, D)。
lengths (torch.Tensor) – 形状为 (B,)，其中第 i 个元素表示 input 中第 i 个批量元素的有效帧数。
states (List[List[torch.Tensor]] 或 None, 可选) – 表示在 infer 上次调用中生成的内部状态的张量列表的列表。(默认值: None)

返回值：:

Tensor: 输出帧，形状为 (B, segment_length, D)。
Tensor: 输出长度，形状为 (B,)，其中第 i 个元素表示输出帧中第 i 个批量元素的有效帧数。
List[List[Tensor]]: 输出状态；表示在 infer 当前调用中生成的内部状态的张量列表的列表。

返回类型：:

(Tensor, Tensor, List[List[Tensor]])

ConvEmformer¶

方法¶

forward¶

infer¶

文档

教程

资源