TACOTRON2_WAVERNN_PHONE_LJSPEECH¶
- torchaudio.pipelines.TACOTRON2_WAVERNN_PHONE_LJSPEECH¶
基于音素的 TTS pipeline,使用在 LJSpeech [Ito 和 Johnson, 2017] 上训练了 1,500 个 epoch 的
Tacotron2
和在 LJSpeech [Ito 和 Johnson, 2017] 的 8 位深度波形上训练了 10,000 个 epoch 的WaveRNN
声码器。文本处理器基于音素编码输入文本。它使用 DeepPhonemizer 将字素转换为音素。该模型 (en_us_cmudict_forward) 在 CMUDict 上训练。
您可以在此处找到 Tacotron2 的训练脚本。使用了以下参数:
win_length=1100
、hop_length=275
、n_fft=2048
、mel_fmin=40
和mel_fmax=11025
。您可以在此处找到 WaveRNN 的训练脚本。
有关用法,请参阅
torchaudio.pipelines.Tacotron2TTSBundle()
。示例 - “Hello world! T T S stands for Text to Speech!”
示例 - “The examination and testimony of the experts enabled the Commission to conclude that five shots may have been fired,”