快捷方式

HIFIGAN_VOCODER_V3_LJSPEECH

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN 声码器流水线,在 LJ 语音数据集 [Ito 和 Johnson,2017] 上训练。

此流水线可与生成梅尔声谱图的外部组件一起使用,例如 Tacotron2 - 请参阅 HiFiGANVocoderBundle 中的示例。虽然这适用于现有的 Tacotron2 捆绑包,但为了获得最佳效果,需要使用与训练 HiFiGAN 相同的数据预处理流水线重新训练 Tacotron2。特别是,原始 HiFiGAN 实现使用了一种自定义方法从波形生成梅尔声谱图,这与 torchaudio.transforms.MelSpectrogram 不同。我们重新实现了此转换作为 HiFiGANVocoderBundle.get_mel_transform(),确保它等同于原始 HiFiGAN 代码 此处

底层声码器由 torchaudio.prototype.models.hifigan_vocoder() 构建。权重是从原始论文 [Kong 等人,2020] 中发布的权重转换而来,并在 MIT 许可证 下发布。请参阅 GitHub 上的预训练模型链接。

请参阅 HiFiGANVocoderBundle 以获取使用说明。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源