torchaudio.functional¶

用于执行常见音频操作的函数。

工具¶

`amplitude_to_DB`	将频谱图从功率/幅度尺度转换为分贝尺度。
`DB_to_amplitude`	将张量从分贝尺度转换为功率/幅度尺度。
`melscale_fbanks`	创建频率 bin 转换矩阵。
`linear_fbanks`	创建线性三角滤波器组。
`create_dct`	创建形状为 (`n_mels`, `n_mfcc`) 的 DCT 变换矩阵，根据 norm 进行归一化。
`mask_along_axis`	沿 `axis` 应用掩码。
`mask_along_axis_iid`	沿 `axis` 应用掩码。
`mu_law_encoding`	基于 mu-law 压扩对信号进行编码。
`mu_law_decoding`	解码 mu-law 编码信号。
`apply_codec`	已弃用：应用编解码器作为一种增强形式。
`resample`	使用带限插值以新频率对波形进行重采样。
`loudness`	根据 ITU-R BS.1770-4 建议测量音频响度。
`convolve`	使用直接方法沿其最后一个维度卷积输入。
`fftconvolve`	使用 FFT 沿其最后一个维度卷积输入。
`add_noise`	根据信噪比缩放波形并添加噪声。
`preemphasis`	沿其最后一个维度对波形进行预加重，即对于 `waveform` 中的每个信号 \(x\)，计算输出 \(y\) 为。
`deemphasis`	沿其最后一个维度对波形进行去加重。
`speed`	调整波形速度。
`frechet_distance`	计算两个多元正态分布之间的 Fréchet 距离 [Dowson and Landau, 1982]。

`allpass_biquad`	设计二阶全通滤波器。
`band_biquad`	设计二阶带滤波器。
`bandpass_biquad`	设计二阶带通滤波器。
`bandreject_biquad`	设计二阶带阻滤波器。
`bass_biquad`	设计低音音调控制效果。
`biquad`	对输入张量执行双二阶滤波。
`contrast`	应用对比度效果。
`dcshift`	对音频应用直流偏移。
`deemph_biquad`	应用 ISO 908 CD 去加重（搁架式）IIR 滤波器。
`dither`	应用抖动
`equalizer_biquad`	设计双二阶峰值均衡器滤波器并执行滤波。
`filtfilt`	对波形应用 IIR 滤波器前向和后向滤波。
`flanger`	对音频应用镶边效果。
`gain`	对整个波形应用放大或衰减。
`highpass_biquad`	设计双二阶高通滤波器并执行滤波。
`lfilter`	通过评估差分方程执行 IIR 滤波，使用由 Yu 等人 [Yu and Fazekas, 2023] 和 Forgione 等人 [Forgione and Piga, 2021] 独立开发的可微分实现。
`lowpass_biquad`	设计双二阶低通滤波器并执行滤波。
`overdrive`	对音频应用过载效果。
`phaser`	对音频应用移相效果。
`riaa_biquad`	应用 RIAA 唱片播放均衡。
`treble_biquad`	设计高音音调控制效果。

`vad`	语音活动检测器。
`spectrogram`	从原始音频信号创建频谱图或一批频谱图。
`inverse_spectrogram`	从提供的复数值频谱图创建逆频谱图或一批逆频谱图。
`griffinlim`	使用 Griffin-Lim 变换从线性幅度频谱图计算波形。
`phase_vocoder`	给定一个 STFT 张量，通过因子 `rate` 在时间上加速而不改变音高。
`pitch_shift`	将波形的音高偏移 `n_steps` 步。
`compute_deltas`	计算张量的 delta 系数，通常是频谱图
`detect_pitch_frequency`	检测音高频率。
`sliding_window_cmn`	按话语应用滑动窗口倒谱均值（和可选方差）归一化。
`spectral_centroid`	沿时间轴计算每个通道的频谱质心。

`psd`	计算跨通道功率谱密度 (PSD) 矩阵。
`mvdr_weights_souden`	根据 Souden 等人 [Souden 等人, 2009] 提出的方法计算最小方差无失真响应 (MVDR [Capon, 1969]) 波束形成权重。
`mvdr_weights_rtf`	根据相对传递函数 (RTF) 和噪声功率谱密度 (PSD) 矩阵计算最小方差无失真响应 (MVDR [Capon, 1969]) 波束形成权重。
`rtf_evd`	通过特征值分解估计相对传递函数 (RTF) 或导向矢量。
`rtf_power`	通过幂法估计相对传递函数 (RTF) 或导向矢量。
`apply_beamforming`	将波束形成权重应用于多通道噪声谱，以获得单通道增强谱。

计算来自 Sequence Transduction with Recurrent Neural Networks [Graves, 2012] 的 RNN Transducer 损失。

计算两个序列之间的词级编辑（Levenshtein）距离。