快捷方式

ConvTasNet

class torchaudio.models.ConvTasNet(num_sources: int = 2, enc_kernel_size: int = 16, enc_num_feats: int = 512, msk_kernel_size: int = 3, msk_num_feats: int = 128, msk_num_hidden_feats: int = 512, msk_num_layers: int = 8, msk_num_stacks: int = 3, msk_activate: str = 'sigmoid')[source]

Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo and Mesgarani, 2019] 中介绍的 Conv-TasNet 架构。

注意

此实现对应于论文中的“非因果”设置。

另请参阅

参数:
  • num_sources (int, 可选) – 要分离的源的数量。

  • enc_kernel_size (int, 可选) – 编码器/解码器的卷积核大小,<L>。

  • enc_num_feats (int, 可选) – 传递给掩码生成器的特征维度,<N>。

  • msk_kernel_size (int, 可选) – 掩码生成器的卷积核大小,<P>。

  • msk_num_feats (int, 可选) – 掩码生成器中 conv 块的输入/输出特征维度,<B, Sc>。

  • msk_num_hidden_feats (int, 可选) – 掩码生成器的 conv 块的内部特征维度,<H>。

  • msk_num_layers (int, 可选) – 掩码生成器的一个 conv 块中的层数,<X>。

  • msk_num_stacks (int, 可选) – 掩码生成器的 conv 块的数量,<R>。

  • msk_activate (str, 可选) – 掩码输出的激活函数 (默认值: sigmoid)。

方法

forward

ConvTasNet.forward(input: Tensor) Tensor[source]

执行源分离。生成音频源波形。

参数:

input (torch.Tensor) – 形状为 [batch, channel==1, frames] 的 3D 张量

返回值:

形状为 [batch, channel==num_sources, frames] 的 3D 张量

返回类型:

Tensor

工厂函数

conv_tasnet_base

构建 ConvTasNet 的非因果版本。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源