torchaudio.functional.sliding_window_cmn¶

torchaudio.functional.sliding_window_cmn(specgram: Tensor, cmn_window: int = 600, min_cmn_window: int = 100, center: bool = False, norm_vars: bool = False) → Tensor[源代码]¶

对每个语段应用滑动窗口倒谱均值（可选方差）归一化。

参数：

specgram (Tensor) – 维度为 (…, time, freq) 的声谱图 Tensor
cmn_window (int, 可选) – 用于计算移动平均 CMN 的帧窗口大小（int，默认值 = 600）
min_cmn_window (int, 可选) – 解码开始时使用的最小 CMN 窗口（仅在开始时增加延迟）。仅当 center == false 时适用，如果 center==true 则忽略（int，默认值 = 100）
center (bool, 可选) – 如果为 true，则使用以当前帧为中心的窗口（尽可能地，考虑到末端效应）。如果为 false，则窗口在左侧。（bool，默认值 = false）
norm_vars (bool, 可选) – 如果为 true，则将方差归一化为一。（bool，默认值 = false）

返回：

与输入形状 (…, freq, time) 匹配的 Tensor

返回类型：

Tensor

torchaudio.functional.sliding_window_cmn¶

文档

教程

资源