TACOTRON2_WAVERNN_PHONE_LJSPEECH¶
- torchaudio.pipelines.TACOTRON2_WAVERNN_PHONE_LJSPEECH¶
基于音素的 TTS 管道,使用在 LJSpeech 上训练了 1,500 个 epoch 的
Tacotron2
[Ito 和 Johnson,2017],以及在 LJSpeech 的 8 位深度波形上训练了 10,000 个 epoch 的WaveRNN
声码器 [Ito 和 Johnson,2017]。文本处理器根据音素对输入文本进行编码。它使用 DeepPhonemizer 将字符转换为音素。该模型 (en_us_cmudict_forward) 在 CMUDict 上进行了训练。
您可以在此处找到 Tacotron2 的训练脚本 此处。使用了以下参数;
win_length=1100
、hop_length=275
、n_fft=2048
、mel_fmin=40
和mel_fmax=11025
。您可以在此处找到 WaveRNN 的训练脚本 此处。
请参考
torchaudio.pipelines.Tacotron2TTSBundle()
以了解用法。示例 - “Hello world! T T S 代表文本转语音!”
示例 - “专家的审查和证词使委员会得出结论,可能已经发射了五枪,”