• 文档 >
  • torchaudio.functional >
  • 当前(稳定)
快捷方式

torchaudio.functional

执行常见音频操作的函数。

实用程序

amplitude_to_DB

将功率/振幅标度的频谱图转换为分贝标度。

DB_to_amplitude

将分贝标度的张量转换为功率/振幅标度。

melscale_fbanks

创建频率箱转换矩阵。

linear_fbanks

创建线性三角滤波器组。

create_dct

创建形状为 (n_mels, n_mfcc) 的 DCT 转换矩阵,根据规范进行归一化。

mask_along_axis

沿 axis 应用掩码。

mask_along_axis_iid

沿 axis 应用掩码。

mu_law_encoding

基于 mu 定律压缩对信号进行编码。

mu_law_decoding

解码 mu 定律编码的信号。

apply_codec

已弃用:以增强形式应用编解码器。

resample

使用带限插值以新频率对波形进行重新采样。

loudness

根据 ITU-R BS.1770-4 建议测量音频响度。

convolve

使用直接方法沿其最后一个维度对输入进行卷积。

fftconvolve

使用 FFT 沿其最后一个维度对输入进行卷积。

add_noise

根据信噪比对波形进行缩放并添加噪声。

preemphasis

沿其最后一个维度对波形进行预加重,即对于 waveform 中的每个信号 \(x\),计算输出 \(y\) 为。

deemphasis

沿其最后一个维度对波形进行去加重。

speed

调整波形速度。

frechet_distance

计算两个多元正态分布之间的 Fréchet 距离 [Dowson 和 Landau,1982]

强制对齐

forced_align

将 CTC 标签序列与发射对齐。

merge_tokens

从给定的 CTC 令牌序列中删除重复的令牌和空白令牌。

TokenSpan

带有时间戳和分数的令牌。

过滤

全通双二次滤波器

设计两极全通滤波器。

带通双二次滤波器

设计两极带通滤波器。

带通双二次滤波器

设计两极带通滤波器。

带阻双二次滤波器

设计两极带阻滤波器。

低音双二次滤波器

设计低音音调控制效果。

双二次滤波器

对输入张量执行双二次滤波。

对比度

应用对比度效果。

直流偏移

对音频应用直流偏移。

去加重双二次滤波器

应用 ISO 908 CD 去加重(搁置)IIR 滤波器。

抖动

应用抖动

均衡器双二次滤波器

设计双二次峰值均衡器滤波器并执行滤波。

filtfilt

对波形向前和向后应用 IIR 滤波器。

镶边

对音频应用镶边效果。

增益

对整个波形应用放大或衰减。

高通双二次滤波器

设计双二次高通滤波器并执行滤波。

lfilter

通过评估差分方程执行 IIR 滤波,使用由Yu 等人独立开发的可微分实现。[Yu 和 Fazekas,2023]Forgione 等人[Forgione 和 Piga,2021]

低通双二次滤波器

设计双二次低通滤波器并执行滤波。

过载

对音频应用过载效果。

移相器

对音频应用移相效果。

riaa 双二次滤波器

应用 RIAA 黑胶播放均衡。

高音双二次滤波器

设计高音调控制效果。

特征提取

vad

语音活动检测器。

spectrogram

从原始音频信号创建频谱图或一批频谱图。

inverse_spectrogram

从提供的复值频谱图创建逆频谱图或一批逆频谱图。

griffinlim

使用 Griffin-Lim 变换从线性尺度幅度频谱图计算波形。

phase_vocoder

给定一个 STFT 张量,在不改变音高的前提下,以 rate 的因子加速时间。

pitch_shift

将波形的音高提升 n_steps 步。

compute_deltas

计算张量的差分系数,通常是频谱图

detect_pitch_frequency

检测音高频率。

sliding_window_cmn

应用滑动窗口倒谱均值(和可选的方差)归一化到每个话语。

spectral_centroid

计算沿时间轴每个通道的频谱质心。

多通道

psd

计算跨通道功率谱密度 (PSD) 矩阵。

mvdr_weights_souden

通过Souden 等人提出的方法计算最小方差失真响应 (MVDR [Capon,1969]) 波束形成权重。 [Souden 等人,2009].

mvdr_weights_rtf

基于相对传递函数 (RTF) 和噪声的功率谱密度 (PSD) 矩阵计算最小方差失真响应 (MVDR [Capon,1969]) 波束形成权重。

rtf_evd

通过特征值分解估计相对传递函数 (RTF) 或导向矢量。

rtf_power

通过功率法估计相对传递函数 (RTF) 或导向矢量。

apply_beamforming

将波束赋形权重应用于多通道噪声频谱以获取单通道增强频谱。

损失

rnnt_loss

根据使用循环神经网络进行序列转换计算 RNN 转换器损失[Graves,2012 年]

指标

edit_distance

计算两个序列之间的单词级别编辑(Levenshtein)距离。

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源