torchaudio.models¶
The torchaudio.models
子包包含针对常见音频任务的模型定义。
注意
对于具有预训练参数的模型,请参考 torchaudio.pipelines
模块。
模型定义负责构建计算图并执行它们。
一些模型具有复杂的结构和变体。对于此类模型,提供了工厂函数。
Conformer 架构在 Conformer: Convolution-augmented Transformer for Speech Recognition [Gulati 等人,2020] 中介绍。 |
|
Conv-TasNet 架构在 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo 和 Mesgarani,2019] 中介绍。 |
|
DeepSpeech 架构在 Deep Speech: Scaling up end-to-end speech recognition [Hannun 等人,2014] 中介绍。 |
|
Emformer 架构在 Emformer: Efficient Memory Transformer Based Acoustic Model for Low Latency Streaming Speech Recognition [Shi 等人,2021] 中介绍。 |
|
来自 Hybrid Spectrogram and Waveform Source Separation [Défossez,2021] 的混合 Demucs 模型。 |
|
用于在HuBERT [Hsu 等人,2021] 中进行预训练的 HuBERT 模型。 |
|
循环神经网络转导器 (RNN-T) 模型。 |
|
用于 RNN-T 模型的集束搜索解码器。 |
|
语音质量和清晰度度量 (SQUIM) 模型,用于预测语音增强(例如 STOI、PESQ 和 SI-SDR)的客观指标分数。 |
|
语音质量和清晰度度量 (SQUIM) 模型,用于预测语音增强(例如平均意见得分 (MOS))的主观指标分数。 |
|
来自通过对 Mel 谱图预测进行条件化 WaveNet 来实现自然 TTS 合成 [Shen 等人,2018] 的 Tacotron2 模型,基于来自 Nvidia 深度学习示例 的实现。 |
|
来自Wav2Letter:基于端到端卷积神经网络的语音识别系统 [Collobert 等人,2016] 的 Wav2Letter 模型架构。 |
|
用于wav2vec 2.0 [Baevski 等人,2020] 的声学模型。 |
|
来自高效的神经音频合成 [Kalchbrenner 等人,2018] 的 WaveRNN 模型,基于来自 fatchord/WaveRNN 的实现。 |