HIFIGAN_VOCODER_V3_LJSPEECH¶
- torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶
HiFiGAN 声码器流水线,在 LJ 语音数据集 [Ito 和 Johnson,2017] 上训练。
此流水线可与生成梅尔声谱图的外部组件一起使用,例如 Tacotron2 - 请参阅
HiFiGANVocoderBundle
中的示例。虽然这适用于现有的 Tacotron2 捆绑包,但为了获得最佳效果,需要使用与训练 HiFiGAN 相同的数据预处理流水线重新训练 Tacotron2。特别是,原始 HiFiGAN 实现使用了一种自定义方法从波形生成梅尔声谱图,这与torchaudio.transforms.MelSpectrogram
不同。我们重新实现了此转换作为HiFiGANVocoderBundle.get_mel_transform()
,确保它等同于原始 HiFiGAN 代码 此处。底层声码器由
torchaudio.prototype.models.hifigan_vocoder()
构建。权重是从原始论文 [Kong 等人,2020] 中发布的权重转换而来,并在 MIT 许可证 下发布。请参阅 GitHub 上的预训练模型链接。请参阅
HiFiGANVocoderBundle
以获取使用说明。