快捷方式

torchaudio.compliance.kaldi.fbank

torchaudio.compliance.kaldi.fbank(waveform: Tensor, blackman_coeff: float = 0.42, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, high_freq: float = 0.0, htk_compat: bool = False, low_freq: float = 20.0, min_duration: float = 0.0, num_mel_bins: int = 23, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sample_frequency: float = 16000.0, snip_edges: bool = True, subtract_mean: bool = False, use_energy: bool = False, use_log_fbank: bool = True, use_power: bool = True, vtln_high: float = -500.0, vtln_low: float = 100.0, vtln_warp: float = 1.0, window_type: str = 'povey') Tensor[源代码]

从原始音频信号创建 fbank。这与 Kaldi 的 compute-fbank-feats 的输入/输出相匹配。

参数:
  • waveform (Tensor) – 音频张量,大小为 (c, n),其中 c 的范围为 [0,2)

  • blackman_coeff (float, 可选) – 广义 Blackman 窗口的常数系数。(默认:0.42

  • channel (int, 可选) – 要提取的通道(-1 -> 期望单声道,0 -> 左声道,1 -> 右声道)(默认:-1

  • dither (float, 可选) – 抖动常数(0.0 表示无抖动)。如果关闭此选项,则应设置 energy_floor 选项,例如设置为 1.0 或 0.1(默认:0.0

  • energy_floor (float, 可选) – 频谱图计算中能量的下限(绝对值,而非相对值)。注意:此下限应用于表示总信号能量的第零个分量。各个频谱图元素的下限固定为 std::numeric_limits<float>::epsilon()。(默认:1.0

  • frame_length (float, 可选) – 帧长,单位为毫秒(默认:25.0

  • frame_shift (float, 可选) – 帧移,单位为毫秒(默认:10.0

  • high_freq (float, 可选) – 梅尔频段的高截止频率(如果 <= 0,则从奈奎斯特频率偏移)(默认:0.0

  • htk_compat (bool, 可选) – 如果为 true,则将能量放在最后。警告:不足以获得 HTK 兼容的特征(需要更改其他参数)。(默认:False

  • low_freq (float, 可选) – 梅尔频段的低截止频率(默认:20.0

  • min_duration (float, 可选) – 要处理的段的最小持续时间(秒)。(默认:0.0

  • num_mel_bins (int, 可选) – 三角梅尔频率 bins 的数量(默认:23

  • preemphasis_coefficient (float, 可选) – 用于信号预加重的系数(默认:0.97

  • raw_energy (bool, 可选) – 如果为 True,则在预加重和加窗之前计算能量(默认:True

  • remove_dc_offset (bool, 可选) – 从每帧的波形中减去均值(默认:True

  • round_to_power_of_two (bool, 可选) – 如果为 True,则通过对 FFT 的输入进行零填充,将窗口大小四舍五入为 2 的幂。(默认:True

  • sample_frequency (float, 可选) – 波形数据采样频率(必须与波形文件匹配,如果已指定)(默认:16000.0

  • snip_edges (bool, 可选) – 如果为 True,则通过仅输出完全适合文件的帧来处理边缘效应,并且帧数取决于 frame_length。如果为 False,则帧数仅取决于 frame_shift,并且我们在末尾反射数据。(默认:True

  • subtract_mean (bool, 可选) – 减去每个特征文件的均值 [CMS];不建议以这种方式进行。(默认:False

  • use_energy (bool, 可选) – 向 FBANK 输出添加一个包含能量的额外维度。(默认:False

  • use_log_fbank (bool, 可选) – 如果为 true,则生成对数滤波器组,否则生成线性滤波器组。(默认:True

  • use_power (bool, 可选) – 如果为 true,则使用功率,否则使用幅度。(默认:True

  • vtln_high (float, 可选) – 分段线性 VTLN 扭曲函数中的高拐点(如果为负数,则从 high-mel-freq 偏移(默认:-500.0

  • vtln_low (float, 可选) – 分段线性 VTLN 扭曲函数中的低拐点(默认:100.0

  • vtln_warp (float, 可选) – Vtln 扭曲因子(仅在未指定 vtln_map 时适用)(默认:1.0

  • window_type (str, 可选) – 窗口类型(‘hamming’|‘hanning’|‘povey’|‘rectangular’|‘blackman’)(默认:'povey'

返回:

与 Kaldi 输出相同的 fbank。形状为 (m, num_mel_bins + use_energy),其中 m 在 _get_strided 中计算

返回类型:

Tensor

使用 fbank 的教程
ASR Inference with CUDA CTC Decoder

使用 CUDA CTC 解码器的 ASR 推理

使用 CUDA CTC 解码器的 ASR 推理

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源