• 文档 >
  • torchaudio.models >
  • 旧版本 (稳定版)
快捷方式

torchaudio.models

torchaudio.models 子包包含用于解决常见音频任务的模型定义。

注意

对于具有预训练参数的模型,请参考 torchaudio.pipelines 模块。

模型定义负责构建计算图并执行它们。

一些模型具有复杂的结构和变体。对于此类模型,提供了工厂函数。

Conformer

Conformer 架构在 Conformer:用于语音识别的卷积增强 Transformer [Gulati 等人,2020] 中介绍。

ConvTasNet

Conv-TasNet 架构在 Conv-TasNet:超越理想时频幅度掩蔽的语音分离 [Luo 和 Mesgarani,2019] 中介绍。

DeepSpeech

DeepSpeech 架构在 Deep Speech:扩展端到端语音识别 [Hannun 等人,2014] 中介绍。

Emformer

Emformer 架构在 Emformer:用于低延迟流式语音识别的基于高效内存 Transformer 的声学模型 [Shi 等人,2021] 中介绍。

HDemucs

来自 混合频谱图和波形源分离 [Défossez,2021] 的混合 Demucs 模型。

HuBERTPretrainModel

用于在 HuBERT [Hsu 等人,2021] 中进行预训练的 HuBERT 模型。

RNNT

递归神经网络换能器 (RNN-T) 模型。

RNNTBeamSearch

RNN-T 模型的束搜索解码器。

SquimObjective

语音质量和可懂度度量 (SQUIM) 模型,预测语音增强(例如,STOI、PESQ 和 SI-SDR)的**客观**指标得分。

SquimSubjective

语音质量和可懂度度量 (SQUIM) 模型,预测语音增强(例如,平均意见评分 (MOS))的**主观**指标得分。

Tacotron2

来自 通过调节 Mel 频谱图预测上的 WaveNet 来进行自然 TTS 合成 [Shen 等人,2018] 的 Tacotron2 模型,基于 Nvidia 深度学习示例 中的实现。

Wav2Letter

来自 Wav2Letter:基于端到端 ConvNet 的语音识别系统 [Collobert 等人,2016] 的 Wav2Letter 模型架构。

Wav2Vec2Model

wav2vec 2.0 [Baevski 等人,2020] 中使用的声学模型。

WaveRNN

来自 高效神经音频合成 [Kalchbrenner 等人,2018] 的 WaveRNN 模型,基于 fatchord/WaveRNN 中的实现。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源