HiFiGANVocoderBundle¶

class torchaudio.prototype.pipelines.HiFiGANVocoderBundle[源代码]¶

一个数据类，捆绑了使用预训练的 HiFiGANVocoder 所需的相关信息。

此类提供了实例化预训练模型的接口，以及检索预训练权重和模型所需附加数据的信息。

Torchaudio 库实例化此类对象，每个对象代表一个不同的预训练模型。客户端代码应通过这些实例访问预训练模型。

此捆绑包可以将梅尔频谱图转换为波形，反之亦然。一个典型用例是文本 -> 梅尔频谱图 -> 波形的流程，其中可以使用外部组件（例如 Tacotron2）从文本生成梅尔频谱图。请参阅下面的代码示例。

示例：将合成梅尔频谱图转换为音频。

>>> import torch
>>> import torchaudio
>>> # Since HiFiGAN bundle is in prototypes, it needs to be exported explicitly
>>> from torchaudio.prototype.pipelines import HIFIGAN_VOCODER_V3_LJSPEECH as bundle
>>>
>>> # Load the HiFiGAN bundle
>>> vocoder = bundle.get_vocoder()
Downloading: "https://download.pytorch.org/torchaudio/models/hifigan_vocoder_v3_ljspeech.pth"
100%|████████████| 5.59M/5.59M [00:00<00:00, 18.7MB/s]
>>>
>>> # Generate synthetic mel spectrogram
>>> specgram = torch.sin(0.5 * torch.arange(start=0, end=100)).expand(bundle._vocoder_params["in_channels"], 100)
>>>
>>> # Transform mel spectrogram into audio
>>> waveform = vocoder(specgram)
>>> torchaudio.save('sample.wav', waveform, bundle.sample_rate)

示例：与 Tacotron2 一起使用，实现文本到音频。

>>> import torch
>>> import torchaudio
>>> # Since HiFiGAN bundle is in prototypes, it needs to be exported explicitly
>>> from torchaudio.prototype.pipelines import HIFIGAN_VOCODER_V3_LJSPEECH as bundle_hifigan
>>>
>>> # Load Tacotron2 bundle
>>> bundle_tactron2 = torchaudio.pipelines.TACOTRON2_WAVERNN_CHAR_LJSPEECH
>>> processor = bundle_tactron2.get_text_processor()
>>> tacotron2 = bundle_tactron2.get_tacotron2()
>>>
>>> # Use Tacotron2 to convert text to mel spectrogram
>>> text = "A quick brown fox jumped over a lazy dog"
>>> input, lengths = processor(text)
>>> specgram, lengths, _ = tacotron2.infer(input, lengths)
>>>
>>> # Load HiFiGAN bundle
>>> vocoder = bundle_hifigan.get_vocoder()
Downloading: "https://download.pytorch.org/torchaudio/models/hifigan_vocoder_v3_ljspeech.pth"
100%|████████████| 5.59M/5.59M [00:03<00:00, 1.55MB/s]
>>>
>>> # Use HiFiGAN to convert mel spectrogram to audio
>>> waveform = vocoder(specgram).squeeze(0)
>>> torchaudio.save('sample.wav', waveform, bundle_hifigan.sample_rate)

属性¶

sample_rate¶

property HiFiGANVocoderBundle.sample_rate¶

模型训练时使用的音频采样率。

类型：: float

方法¶

get_mel_transform¶

HiFiGANVocoderBundle.get_mel_transform() → Module[源代码]¶: 构造一个将波形转换为梅尔频谱图的对象。

get_vocoder¶

HiFiGANVocoderBundle.get_vocoder(*, dl_kwargs=None) → HiFiGANVocoder[源代码]¶

构建 HiFiGAN 生成器模型，该模型可用作声码器，并加载预训练权重。

权重文件将从互联网下载并使用 torch.hub.load_state_dict_from_url() 进行缓存。

参数：: dl_kwargs (关键字参数字典) – 传递给 torch.hub.load_state_dict_from_url()。
返回：: HiFiGANVocoder 的变体。

HiFiGANVocoderBundle¶

属性¶

sample_rate¶

方法¶

get_mel_transform¶

get_vocoder¶

文档

教程

资源