快捷方式

MFCC

class torchaudio.transforms.MFCC(sample_rate: int = 16000, n_mfcc: int = 40, dct_type: int = 2, norm: str = 'ortho', log_mels: bool = False, melkwargs: Optional[dict] = None)[source]

从音频信号创建梅尔频率倒谱系数。

This feature supports the following devices: CPU, CUDA This API supports the following properties: Autograd, TorchScript

默认情况下,这会计算 DB 缩放的梅尔谱图上的 MFCC。这不是教科书中的实现,但在此处实现是为了与 librosa 保持一致。

此输出取决于输入谱图中的最大值,因此对于分割成片段的音频片段与完整片段相比,可能会返回不同的值。

参数:
  • sample_rate (int, 可选) – 音频信号的采样率。(默认值:16000

  • n_mfcc (int, 可选) – 要保留的 MFCC 系数的数量。(默认值:40

  • dct_type (int, 可选) – 要使用的 DCT(离散余弦变换)类型。(默认值:2

  • norm (str, 可选) – 要使用的范数。(默认值:"ortho"

  • log_mels (bool, 可选) – 是否使用对数梅尔谱图而不是 DB 缩放的谱图。(默认值:False

  • melkwargs (dictNone, 可选) – MelSpectrogram 的参数。(默认值:None

示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = transforms.MFCC(
>>>     sample_rate=sample_rate,
>>>     n_mfcc=13,
>>>     melkwargs={"n_fft": 400, "hop_length": 160, "n_mels": 23, "center": False},
>>> )
>>> mfcc = transform(waveform)

另请参阅

torchaudio.functional.melscale_fbanks() - 用于生成滤波器组的函数。

使用 MFCC 的教程
Audio Feature Extractions

音频特征提取

音频特征提取
forward(waveform: Tensor) Tensor[source]
参数:

waveform (Tensor) – 尺寸为 (…, time) 的音频张量。

返回:

尺寸为 (…, n_mfcc, time) 的 specgram_mel_db。

返回类型:

Tensor

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源