• 文档 >
  • torchaudio.models >
  • 旧版本 (稳定)
快捷方式

torchaudio.models

torchaudio.models 子包包含了用于解决常见音频任务的模型定义。

注意

对于带有预训练参数的模型,请参考 torchaudio.pipelines 模块。

模型定义负责构建计算图并执行它们。

有些模型结构复杂且存在变体。对于此类模型,提供了工厂函数。

Conformer

Conformer 架构引入于《Conformer: 用于语音识别的卷积增强型 Transformer》[Gulati 等,2020]

ConvTasNet

Conv-TasNet 架构引入于《Conv-TasNet: 在语音分离中超越理想时频幅度掩蔽》[Luo 和 Mesgarani, 2019]

DeepSpeech

DeepSpeech 架构引入于《Deep Speech: 扩展端到端语音识别》[Hannun 等,2014]

Emformer

Emformer 架构引入于《Emformer: 用于低延迟流式语音识别的基于高效内存 Transformer 的声学模型》[Shi 等,2021]

HDemucs

Hybrid Demucs 模型源自《混合频谱图与波形源分离》[Défossez, 2021]

HuBERTPretrainModel

HuBERT 模型用于《HuBERT》中的预训练 [Hsu 等,2021]

RNNT

循环神经网络换能器 (RNN-T) 模型。

RNNTBeamSearch

RNN-T 模型的 Beam Search 解码器。

SquimObjective

语音质量和可懂度测量 (SQUIM) 模型,用于预测语音增强的客观度量分数(例如,STOI、PESQ 和 SI-SDR)。

SquimSubjective

语音质量和可懂度测量 (SQUIM) 模型,用于预测语音增强的主观度量分数(例如,平均意见得分 (MOS))。

Tacotron2

Tacotron2 模型源自《通过以 Mel 频谱图预测为条件进行自然 TTS 合成》[Shen 等,2018],基于 Nvidia Deep Learning Examples 的实现。

Wav2Letter

Wav2Letter 模型架构源自《Wav2Letter: 一种基于 ConvNet 的端到端语音识别系统》[Collobert 等,2016]

Wav2Vec2Model

《wav2vec 2.0》中使用的声学模型 [Baevski 等,2020]

WaveRNN

WaveRNN 模型源自《高效神经音频合成》[Kalchbrenner 等,2018],基于 fatchord/WaveRNN 的实现。

文档

访问全面的 PyTorch 开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源