HIFIGAN_VOCODER_V3_LJSPEECH¶
- torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶
HiFiGAN 声码器 pipeline,在 The LJ Speech Dataset 上训练 [Ito 和 Johnson, 2017]。
此 pipeline 可以与外部组件一起使用,该组件从文本生成梅尔频谱图,例如,Tacotron2 - 请参阅
HiFiGANVocoderBundle
中的示例。虽然这适用于现有的 Tacotron2 bundles,但为了获得最佳结果,需要使用与训练 HiFiGAN 相同的数据预处理 pipeline 重新训练 Tacotron2。特别是,原始 HiFiGAN 实现使用自定义方法从波形生成梅尔频谱图,这与torchaudio.transforms.MelSpectrogram
不同。我们将此转换重新实现为HiFiGANVocoderBundle.get_mel_transform()
,确保它与原始 HiFiGAN 代码 here 等效。底层声码器由
torchaudio.prototype.models.hifigan_vocoder()
构建。权重从原始论文 [Kong et al., 2020] 中发布的权重转换而来,遵循 MIT 许可证。请参阅 GitHub 上的预训练模型链接。有关使用说明,请参阅
HiFiGANVocoderBundle
。