HiFiGAN 声码器¶
- class torchaudio.prototype.models.HiFiGANVocoder(in_channels: int, upsample_rates: Tuple[int, ...], upsample_initial_channel: int, upsample_kernel_sizes: Tuple[int, ...], resblock_kernel_sizes: Tuple[int, ...], resblock_dilation_sizes: Tuple[Tuple[int, ...], ...], resblock_type: int, lrelu_slope: float)[source]¶
HiFi GAN [Kong 等人,2020] 的生成器部分。来源:https://github.com/jik876/hifi-gan/blob/4769534d45265d52a904b850da5a622601885777/models.py#L75
注意
要构建模型,请使用以下工厂函数之一:
hifigan_vocoder()
,hifigan_vocoder_v1()
,hifigan_vocoder_v2()
,hifigan_vocoder_v3()
。- 参数::
in_channels (int) – 输入特征中的通道数。
upsample_rates (
int
的元组) – 每个上采样层增加时间维度的因子。upsample_initial_channel (int) – 输入特征张量中的通道数。
upsample_kernel_sizes (
int
的元组) – 每个上采样层的核大小。resblock_kernel_sizes (
int
的元组) – 每个残差块的核大小。resblock_dilation_sizes (
int
的元组的元组) – 每个残差块中每个一维卷积层的膨胀大小。对于 resblock 类型 1,内部元组的长度应为 3,因为每层有 3 个卷积。对于 resblock 类型 2,它们应该有长度 2。resblock_type (int, 1 或 2) – 确定将使用
ResBlock1
还是ResBlock2
。lrelu_slope (float) – 激活中泄漏 ReLU 的斜率。
方法¶
前向¶
工厂函数¶
构建 HiFi GAN 声码器 [Kong 等人,2020]. |
|
使用 V1 架构构建 HiFiGAN 声码器 [Kong 等人,2020]. |
|
使用 V2 架构构建 HiFiGAN 声码器 [Kong 等人,2020]. |
|
使用 V3 架构构建 HiFiGAN 声码器 [Kong 等人,2020]. |