torchaudio.functional.sliding_window_cmn¶
- torchaudio.functional.sliding_window_cmn(specgram: Tensor, cmn_window: int = 600, min_cmn_window: int = 100, center: bool = False, norm_vars: bool = False) Tensor [source]¶
对每个话语应用滑动窗口倒谱均值(以及可选方差)归一化。
- 参数:
specgram (Tensor) – 维度为 (…, time, freq) 的频谱图张量
cmn_window (int, optional) – 用于运行平均 CMN 计算的帧窗口(整数,默认值为 600)
min_cmn_window (int, optional) – 解码开始时使用的最小 CMN 窗口(仅在开始时添加延迟)。仅当 center == false 时适用,如果 center==true 则被忽略(整数,默认值为 100)
center (bool, optional) – 如果为真,则使用以当前帧为中心的窗口(尽可能地,模除结尾效应)。如果为假,则窗口位于左侧。(布尔值,默认值为 false)
norm_vars (bool, optional) – 如果为真,则将方差归一化为 1。(布尔值,默认值为 false)
- 返回:
与输入形状 (…, freq, time) 匹配的张量
- 返回类型:
Tensor