快捷方式

torchaudio.prototype.pipelines

pipelines 子包包含具有预训练权重的模型的 API 和相关实用程序。

RNN-T 流式/非流式 ASR

预训练模型

EMFORMER_RNNT_BASE_MUSTC

基于 Emformer-RNNT 的预训练 ASR 管道,能够执行流式和非流式推理。

EMFORMER_RNNT_BASE_TEDLIUM3

基于 Emformer-RNNT 的预训练 ASR 管道,能够执行流式和非流式推理。

HiFiGAN 声码器

接口

HiFiGANVocoderBundle 定义了能够将梅尔语谱图转换为波形的 HiFiGAN 声码器管道。

HiFiGANVocoderBundle

数据类,捆绑了使用预训练的 HiFiGANVocoder 的相关信息。

预训练模型

HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN 声码器管道,在LJ 语音数据集 [Ito and Johnson, 2017] 上训练。

VGGish

接口

VGGishBundle

VGGish [Hershey 等人,2017] 推理管道,移植自 torchvggishtensorflow-models

VGGishBundle.VGGish

VGGish 模型的实现 [Hershey 等人,2017]

VGGishBundle.VGGishInputProcessor

将原始波形转换为批次示例,用作 VGGish 的输入。

预训练模型

VGGISH

预训练的 VGGish [Hershey 等人,2017] 推理管道,移植自 torchvggishtensorflow-models

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源