torchaudio.functional.melscale_fbanks¶

torchaudio.functional.melscale_fbanks(n_freqs: int, f_min: float, f_max: float, n_mels: int, sample_rate: int, norm: Optional[str] = None, mel_scale: str = 'htk') → Tensor[源代码]¶

创建频率bin转换矩阵。

注意

为了与 librosa 保持数值兼容性，生成的滤波器组中的并非所有系数的幅度都为 1。

参数:

n_freqs (int) – 要突出显示/应用的频率数
f_min (float) – 最小频率 (Hz)
f_max (float) – 最大频率 (Hz)
n_mels (int) – mel 滤波器组的数量
sample_rate (int) – 音频波形的采样率
norm (str 或 None, 可选) – 如果为“slaney”，则将三角 mel 权重除以 mel band 的宽度（面积归一化）。(默认值: None)
mel_scale (str, 可选) – 要使用的尺度: htk 或 slaney。(默认值: htk)

返回:

大小为 (n_freqs, n_mels) 的三角滤波器组（fb 矩阵），表示要突出显示/应用的频率数乘以滤波器组的数量。每一列都是一个滤波器组，因此假设存在一个大小为 (…, n_freqs) 的矩阵 A，应用后的结果将是 A @ melscale_fbanks(A.size(-1), ...)。

返回类型:

Tensor

使用 melscale_fbanks 的教程: 音频特征提取

音频特征提取

torchaudio.functional.melscale_fbanks¶

文档

教程

资源