快捷方式

HIFIGAN_VOCODER_V3_LJSPEECH

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN Vocoder 管道,在 The LJ Speech Dataset 上训练而成 [Ito 和 Johnson, 2017]

该管道可与从文本生成梅尔谱图的外部组件配合使用,例如 Tacotron2 - 参见 HiFiGANVocoderBundle 中的示例。尽管这与现有的 Tacotron2 捆绑包(Bundle)配合使用,但为了获得最佳结果,需要使用与训练 HiFiGAN 时相同的数据预处理管道重新训练 Tacotron2。特别是,原始的 HiFiGAN 实现使用了一种自定义方法从波形生成梅尔谱图,这与 torchaudio.transforms.MelSpectrogram 不同。我们将此变换重新实现为 HiFiGANVocoderBundle.get_mel_transform(),确保它与原始 HiFiGAN 代码 here 等效。

底层声码器由 torchaudio.prototype.models.hifigan_vocoder() 构建。权重是从原始论文 [Kong 等人, 2020] 根据 MIT License 发布的权重转换而来。请参阅 GitHub 上预训练模型的链接。

请参阅 HiFiGANVocoderBundle 以获取使用说明。

文档

访问 PyTorch 的完整开发者文档

查看文档

教程

获取针对初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并解答疑问

查看资源