torchaudio.models¶

The torchaudio.models 子包包含针对常见音频任务的模型定义。

注意

对于具有预训练参数的模型，请参考 torchaudio.pipelines 模块。

模型定义负责构建计算图并执行它们。

一些模型具有复杂的结构和变体。对于此类模型，提供了工厂函数。

`Conformer`	Conformer 架构在 Conformer: Convolution-augmented Transformer for Speech Recognition [Gulati 等人，2020] 中介绍。
`ConvTasNet`	Conv-TasNet 架构在 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo 和 Mesgarani，2019] 中介绍。
`DeepSpeech`	DeepSpeech 架构在 Deep Speech: Scaling up end-to-end speech recognition [Hannun 等人，2014] 中介绍。
`Emformer`	Emformer 架构在 Emformer: Efficient Memory Transformer Based Acoustic Model for Low Latency Streaming Speech Recognition [Shi 等人，2021] 中介绍。
`HDemucs`	来自 Hybrid Spectrogram and Waveform Source Separation [Défossez，2021] 的混合 Demucs 模型。
`HuBERTPretrainModel`	用于在HuBERT [Hsu 等人，2021] 中进行预训练的 HuBERT 模型。
`RNNT`	循环神经网络转导器 (RNN-T) 模型。
`RNNTBeamSearch`	用于 RNN-T 模型的集束搜索解码器。
`SquimObjective`	语音质量和清晰度度量 (SQUIM) 模型，用于预测语音增强（例如 STOI、PESQ 和 SI-SDR）的客观指标分数。
`SquimSubjective`	语音质量和清晰度度量 (SQUIM) 模型，用于预测语音增强（例如平均意见得分 (MOS)）的主观指标分数。
`Tacotron2`	来自通过对 Mel 谱图预测进行条件化 WaveNet 来实现自然 TTS 合成 [Shen 等人，2018] 的 Tacotron2 模型，基于来自 Nvidia 深度学习示例的实现。
`Wav2Letter`	来自Wav2Letter：基于端到端卷积神经网络的语音识别系统 [Collobert 等人，2016] 的 Wav2Letter 模型架构。
`Wav2Vec2Model`	用于wav2vec 2.0 [Baevski 等人，2020] 的声学模型。
`WaveRNN`	来自高效的神经音频合成 [Kalchbrenner 等人，2018] 的 WaveRNN 模型，基于来自 fatchord/WaveRNN 的实现。

torchaudio.models¶

文档

教程

资源