MFCC¶
- class torchaudio.transforms.MFCC(sample_rate: int = 16000, n_mfcc: int = 40, dct_type: int = 2, norm: str = 'ortho', log_mels: bool = False, melkwargs: Optional[dict] = None)[源代码]¶
从音频信号创建 Mel 频率倒谱系数。
默认情况下,此方法计算 DB 尺度 Mel 频谱图上的 MFCC。 这不是教科书式的实现,但在此处实现是为了与 librosa 保持一致性。
此输出取决于输入频谱图中的最大值,因此对于分割成片段的音频剪辑与完整剪辑可能会返回不同的值。
- 参数:
sample_rate (int, 可选) – 音频信号的采样率。 (默认值:
16000
)n_mfcc (int, 可选) – 要保留的 mfc 系数数量。 (默认值:
40
)dct_type (int, 可选) – 要使用的 DCT (离散余弦变换) 类型。 (默认值:
2
)norm (str, 可选) – 要使用的范数。 (默认值:
"ortho"
)log_mels (bool, 可选) – 是否使用对数梅尔频谱图而不是 db 尺度频谱图。 (默认值:
False
)melkwargs (dict 或 None, 可选) – MelSpectrogram 的参数。 (默认值:
None
)
- 示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True) >>> transform = transforms.MFCC( >>> sample_rate=sample_rate, >>> n_mfcc=13, >>> melkwargs={"n_fft": 400, "hop_length": 160, "n_mels": 23, "center": False}, >>> ) >>> mfcc = transform(waveform)
另请参阅
torchaudio.functional.melscale_fbanks()
- 用于生成滤波器组的函数。- 使用
MFCC
的教程