torchaudio.prototype.pipelines¶
pipelines 子包包含带有预训练权重和相关工具的模型的 API。
RNN-T 流式/非流式 ASR¶
预训练模型¶
基于 Emformer-RNNT 的预训练 ASR pipeline,能够执行流式和非流式推理。 |
|
基于 Emformer-RNNT 的预训练 ASR pipeline,能够执行流式和非流式推理。 |
HiFiGAN Vocoder¶
接口¶
HiFiGANVocoderBundle
定义了 HiFiGAN Vocoder pipeline,能够将 mel 频谱图转换为波形。
用于捆绑关联信息以使用预训练 |
预训练模型¶
HiFiGAN Vocoder pipeline,在 The LJ Speech Dataset [Ito and Johnson, 2017] 上训练。 |
VGGish¶
接口¶
从 torchvggish 和 tensorflow-models 移植的 VGGish [Hershey et al., 2017] 推理 pipeline。 |
|
VGGish 模型 [Hershey et al., 2017] 的实现。 |
|
将原始波形转换为批处理示例,用作 VGGish 的输入。 |
预训练模型¶
从 torchvggish 和 tensorflow-models 移植的预训练 VGGish [Hershey et al., 2017] 推理 pipeline。 |