快捷方式

TACOTRON2_WAVERNN_PHONE_LJSPEECH

torchaudio.pipelines.TACOTRON2_WAVERNN_PHONE_LJSPEECH

基于音素的 TTS 管道,使用在 LJSpeech 上训练了 1,500 个 epoch 的 Tacotron2 [Ito 和 Johnson,2017],以及在 LJSpeech 的 8 位深度波形上训练了 10,000 个 epoch 的 WaveRNN 声码器 [Ito 和 Johnson,2017]

文本处理器根据音素对输入文本进行编码。它使用 DeepPhonemizer 将字符转换为音素。该模型 (en_us_cmudict_forward) 在 CMUDict 上进行了训练。

您可以在此处找到 Tacotron2 的训练脚本 此处。使用了以下参数;win_length=1100hop_length=275n_fft=2048mel_fmin=40mel_fmax=11025

您可以在此处找到 WaveRNN 的训练脚本 此处

请参考 torchaudio.pipelines.Tacotron2TTSBundle() 以了解用法。

示例 - “Hello world! T T S 代表文本转语音!”

Spectrogram generated by Tacotron2

示例 - “专家的审查和证词使委员会得出结论,可能已经发射了五枪,”

Spectrogram generated by Tacotron2

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源