HIFIGAN_VOCODER_V3_LJSPEECH¶

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶

HiFiGAN Vocoder 管道，在 The LJ Speech Dataset 上训练而成 [Ito 和 Johnson, 2017]。

该管道可与从文本生成梅尔谱图的外部组件配合使用，例如 Tacotron2 - 参见 HiFiGANVocoderBundle 中的示例。尽管这与现有的 Tacotron2 捆绑包（Bundle）配合使用，但为了获得最佳结果，需要使用与训练 HiFiGAN 时相同的数据预处理管道重新训练 Tacotron2。特别是，原始的 HiFiGAN 实现使用了一种自定义方法从波形生成梅尔谱图，这与 torchaudio.transforms.MelSpectrogram 不同。我们将此变换重新实现为 HiFiGANVocoderBundle.get_mel_transform()，确保它与原始 HiFiGAN 代码 here 等效。