快捷方式

滑动窗口均值归一化

class torchaudio.transforms.SlidingWindowCmn(cmn_window: int = 600, min_cmn_window: int = 100, center: bool = False, norm_vars: bool = False)[source]

对每个语音应用滑动窗口倒谱均值(以及可选的方差)归一化。

This feature supports the following devices: CPU, CUDA This API supports the following properties: Autograd, TorchScript
参数:
  • cmn_window (int, 可选) – 用于运行平均 CMN 计算的帧窗口(整数,默认值为 600)

  • min_cmn_window (int, 可选) – 解码开始时使用的最小 CMN 窗口(仅在开始时添加延迟)。仅当 center == false 时适用,如果 center==true 则忽略(整数,默认值为 100)

  • center (bool, 可选) – 如果为真,则使用以当前帧为中心的窗口(在可能的范围内,取模端效应)。如果为假,则窗口位于左侧。(布尔值,默认为假)

  • norm_vars (bool, 可选) – 如果为真,则将方差归一化为 1。(布尔值,默认为假)

示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = transforms.SlidingWindowCmn(cmn_window=1000)
>>> cmn_waveform = transform(waveform)
forward(specgram: Tensor) Tensor[source]
参数:

specgram (Tensor) – 维度为 (…, time, freq) 的频谱图张量。

返回值:

维度为 (…, time, freq) 的频谱图张量。

返回类型:

张量

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源