torchaudio.models¶
torchaudio.models
子包包含用于解决常见音频任务的模型的定义。
注意
对于具有预训练参数的模型,请参考 torchaudio.pipelines
模块。
模型定义负责构建计算图并执行它们。
一些模型具有复杂的结构和变体。对于这些模型,我们提供了工厂函数。
Conformer 架构在 Conformer: Convolution-augmented Transformer for Speech Recognition [Gulati et al., 2020] 中被引入。 |
|
Conv-TasNet 架构在 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo and Mesgarani, 2019] 中被引入。 |
|
DeepSpeech 架构在 Deep Speech: Scaling up end-to-end speech recognition [Hannun et al., 2014] 中被引入。 |
|
Emformer 架构在 Emformer: Efficient Memory Transformer Based Acoustic Model for Low Latency Streaming Speech Recognition [Shi et al., 2021] 中被引入。 |
|
Hybrid Demucs 模型来自 Hybrid Spectrogram and Waveform Source Separation [Défossez, 2021]。 |
|
HuBERT 模型用于 HuBERT [Hsu et al., 2021] 中的预训练。 |
|
循环神经网络 transducer (RNN-T) 模型。 |
|
RNN-T 模型的波束搜索解码器。 |
|
语音质量和可懂度度量 (SQUIM) 模型,用于预测语音增强的**客观**指标分数(例如,STOI、PESQ 和 SI-SDR)。 |
|
语音质量和可懂度度量 (SQUIM) 模型,用于预测语音增强的**主观**指标分数(例如,平均意见得分 (MOS))。 |
|
Tacotron2 模型来自 Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [Shen et al., 2018],基于 Nvidia Deep Learning Examples 的实现。 |
|
Wav2Letter 模型架构来自 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System [Collobert et al., 2016]。 |
|
用于 wav2vec 2.0 [Baevski et al., 2020] 中的声学模型。 |
|
WaveRNN 模型来自 Efficient Neural Audio Synthesis [Kalchbrenner et al., 2018],基于 fatchord/WaveRNN 的实现。 |