快捷方式

HIFIGAN_VOCODER_V3_LJSPEECH

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN 声码器 pipeline,在 The LJ Speech Dataset 上训练 [Ito 和 Johnson, 2017]

此 pipeline 可以与外部组件一起使用,该组件从文本生成梅尔频谱图,例如,Tacotron2 - 请参阅 HiFiGANVocoderBundle 中的示例。虽然这适用于现有的 Tacotron2 bundles,但为了获得最佳结果,需要使用与训练 HiFiGAN 相同的数据预处理 pipeline 重新训练 Tacotron2。特别是,原始 HiFiGAN 实现使用自定义方法从波形生成梅尔频谱图,这与 torchaudio.transforms.MelSpectrogram 不同。我们将此转换重新实现为 HiFiGANVocoderBundle.get_mel_transform(),确保它与原始 HiFiGAN 代码 here 等效。

底层声码器由 torchaudio.prototype.models.hifigan_vocoder() 构建。权重从原始论文 [Kong et al., 2020] 中发布的权重转换而来,遵循 MIT 许可证。请参阅 GitHub 上的预训练模型链接。

有关使用说明,请参阅 HiFiGANVocoderBundle

文档

访问 PyTorch 的综合开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源