快捷方式

torchaudio.prototype.pipelines

pipelines 子包包含带有预训练权重和相关工具的模型的 API。

RNN-T 流式/非流式 ASR

预训练模型

EMFORMER_RNNT_BASE_MUSTC

基于 Emformer-RNNT 的预训练 ASR pipeline,能够执行流式和非流式推理。

EMFORMER_RNNT_BASE_TEDLIUM3

基于 Emformer-RNNT 的预训练 ASR pipeline,能够执行流式和非流式推理。

HiFiGAN Vocoder

接口

HiFiGANVocoderBundle 定义了 HiFiGAN Vocoder pipeline,能够将 mel 频谱图转换为波形。

HiFiGANVocoderBundle

用于捆绑关联信息以使用预训练 HiFiGANVocoder 的数据类。

预训练模型

HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN Vocoder pipeline,在 The LJ Speech Dataset [Ito and Johnson, 2017] 上训练。

VGGish

接口

VGGishBundle

torchvggishtensorflow-models 移植的 VGGish [Hershey et al., 2017] 推理 pipeline。

VGGishBundle.VGGish

VGGish 模型 [Hershey et al., 2017] 的实现。

VGGishBundle.VGGishInputProcessor

将原始波形转换为批处理示例,用作 VGGish 的输入。

预训练模型

VGGISH

torchvggishtensorflow-models 移植的预训练 VGGish [Hershey et al., 2017] 推理 pipeline。

文档

获取 PyTorch 完整的开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源