快捷方式

torchaudio.prototype.pipelines

pipelines 子包包含带有预训练权重的模型以及相关实用程序的 API。

RNN-T 流式/非流式 ASR

预训练模型

EMFORMER_RNNT_BASE_MUSTC

预训练的基于 Emformer-RNNT 的 ASR pipeline,能够执行流式和非流式推理。

EMFORMER_RNNT_BASE_TEDLIUM3

预训练的基于 Emformer-RNNT 的 ASR pipeline,能够执行流式和非流式推理。

HiFiGAN 声码器

接口

HiFiGANVocoderBundle 定义了 HiFiGAN 声码器 pipeline,能够将 mel 频谱图转换为波形。

HiFiGANVocoderBundle

数据类,用于捆绑关联信息以使用预训练的 HiFiGANVocoder

预训练模型

HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN 声码器 pipeline,在 The LJ Speech Dataset [Ito and Johnson, 2017] 上训练。

VGGish

接口

VGGishBundle

VGGish [Hershey et al., 2017] 推理 pipeline,从 torchvggishtensorflow-models 移植而来。

VGGishBundle.VGGish

VGGish 模型的实现 [Hershey et al., 2017]

VGGishBundle.VGGishInputProcessor

将原始波形转换为示例批次,以用作 VGGish 的输入。

预训练模型

VGGISH

预训练的 VGGish [Hershey et al., 2017] 推理 pipeline,从 torchvggishtensorflow-models 移植而来。

文档

访问 PyTorch 的综合开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得解答

查看资源