HIFIGAN_VOCODER_V3_LJSPEECH¶
- torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶
HiFiGAN Vocoder 管道,在 The LJ Speech Dataset 上训练而成 [Ito 和 Johnson, 2017]。
该管道可与从文本生成梅尔谱图的外部组件配合使用,例如 Tacotron2 - 参见
HiFiGANVocoderBundle
中的示例。尽管这与现有的 Tacotron2 捆绑包(Bundle)配合使用,但为了获得最佳结果,需要使用与训练 HiFiGAN 时相同的数据预处理管道重新训练 Tacotron2。特别是,原始的 HiFiGAN 实现使用了一种自定义方法从波形生成梅尔谱图,这与torchaudio.transforms.MelSpectrogram
不同。我们将此变换重新实现为HiFiGANVocoderBundle.get_mel_transform()
,确保它与原始 HiFiGAN 代码 here 等效。底层声码器由
torchaudio.prototype.models.hifigan_vocoder()
构建。权重是从原始论文 [Kong 等人, 2020] 根据 MIT License 发布的权重转换而来。请参阅 GitHub 上预训练模型的链接。请参阅
HiFiGANVocoderBundle
以获取使用说明。