ConvTasNet¶
- class torchaudio.models.ConvTasNet(num_sources: int = 2, enc_kernel_size: int = 16, enc_num_feats: int = 512, msk_kernel_size: int = 3, msk_num_feats: int = 128, msk_num_hidden_feats: int = 512, msk_num_layers: int = 8, msk_num_stacks: int = 3, msk_activate: str = 'sigmoid')[source]¶
Conv-TasNet 架构,在论文 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation 中提出 [Luo and Mesgarani, 2019]。
注意
此实现对应于论文中的“非因果”设置。
另请参阅
torchaudio.pipelines.SourceSeparationBundle
:带有预训练模型的源分离流水线。
- 参数:
num_sources (int, 可选) – 要分离的源的数量。
enc_kernel_size (int, 可选) – 编码器/解码器的卷积核大小,<L>。
enc_num_feats (int, 可选) – 传递给掩码生成器的特征维度,<N>。
msk_kernel_size (int, 可选) – 掩码生成器的卷积核大小,<P>。
msk_num_feats (int, 可选) – 掩码生成器中卷积块的输入/输出特征维度,<B, Sc>。
msk_num_hidden_feats (int, 可选) – 掩码生成器中卷积块的内部特征维度,<H>。
msk_num_layers (int, 可选) – 掩码生成器中一个卷积块的层数,<X>。
msk_num_stacks (int, 可选) – 掩码生成器的卷积块数量,<R>。
msk_activate (str, 可选) – 掩码输出的激活函数(默认:
sigmoid
)。
方法¶
forward¶
- ConvTasNet.forward(input: Tensor) Tensor [source]¶
执行源分离。生成音频源波形。
- 参数:
input (torch.Tensor) – 形状为 [batch, channel==1, frames] 的 3D 张量
- 返回值:
形状为 [batch, channel==num_sources, frames] 的 3D 张量
- 返回类型:
张量
工厂函数¶
构建 |