快捷方式

torchaudio.prototype.pipelines

pipelines 子包包含用于具有预训练权重的模型和相关实用程序的 API。

RNN-T 流式/非流式 ASR

预训练模型

EMFORMER_RNNT_BASE_MUSTC

预训练的基于 Emformer-RNNT 的 ASR 管道,能够执行流式和非流式推理。

EMFORMER_RNNT_BASE_TEDLIUM3

预训练的基于 Emformer-RNNT 的 ASR 管道,能够执行流式和非流式推理。

HiFiGAN 声码器

接口

HiFiGANVocoderBundle 定义了能够将梅尔谱图转换为波形的 HiFiGAN 声码器管道。

HiFiGANVocoderBundle

数据类,捆绑了与使用预训练的 HiFiGANVocoder 相关的信息。

预训练模型

HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN 声码器管道,在 LJ 语音数据集 [Ito 和 Johnson,2017] 上进行训练。

VGGish

接口

VGGishBundle

VGGish [Hershey 等人,2017] 推理管道,移植自 torchvggishtensorflow-models

VGGishBundle.VGGish

VGGish 模型的实现 [Hershey 等人,2017]

VGGishBundle.VGGishInputProcessor

将原始波形转换为批量的示例,用作 VGGish 的输入。

预训练模型

VGGISH

预训练的 VGGish [Hershey 等人,2017] 推理管道,移植自 torchvggishtensorflow-models

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源