LFCC¶

class torchaudio.transforms.LFCC(sample_rate: int = 16000, n_filter: int = 128, f_min: float = 0.0, f_max: Optional[float] = None, n_lfcc: int = 40, dct_type: int = 2, norm: str = 'ortho', log_lf: bool = False, speckwargs: Optional[dict] = None)[source]¶

从音频信号创建线性频率倒谱系数。

默认情况下，此函数在 DB 缩放的线性滤波声谱图上计算 LFCC。这并非教科书式的实现，但此处如此实现是为了与 librosa 保持一致。

此输出取决于输入声谱图中的最大值，因此对于分割成片段的音频片段和完整的音频片段可能会返回不同的值。

参数:

sample_rate (int, 可选) – 音频信号的采样率。(默认值: 16000)
n_filter (int, 可选) – 应用的线性滤波器数量。(默认值: 128)
n_lfcc (int, 可选) – 保留的 LFCC 系数数量。(默认值: 40)
f_min (float, 可选) – 最小频率。(默认值: 0.)
f_max (float 或 None, 可选) – 最大频率。(默认值: None)
dct_type (int, 可选) – 要使用的 DCT（离散余弦变换）类型。(默认值: 2)
norm (str, 可选) – 要使用的范数。(默认值: "ortho")
log_lf (bool, 可选) – 是否使用对数-LF 声谱图而不是 DB 缩放的声谱图。(默认值: False)
speckwargs (dict 或 None, 可选) – Spectrogram 的参数。(默认值: None)

示例

>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = transforms.LFCC(
>>>     sample_rate=sample_rate,
>>>     n_lfcc=13,
>>>     speckwargs={"n_fft": 400, "hop_length": 160, "center": False},
>>> )
>>> lfcc = transform(waveform)

另请参阅

torchaudio.functional.linear_fbanks() - 用于生成滤波器组的函数。

使用 LFCC 的教程: 音频特征提取

音频特征提取

forward(waveform: Tensor) → Tensor[source]¶

参数:: waveform (Tensor) – 维度为 (…, time) 的音频 Tensor。
返回值:: 线性频率倒谱系数，大小为 (…, n_lfcc, time)。
返回类型:: Tensor

LFCC¶

文档

教程

资源