TimeStretch¶

class torchaudio.transforms.TimeStretch(hop_length: Optional[int] = None, n_freq: int = 201, fixed_rate: Optional[float] = None)[源]¶

以给定速率拉伸时域短时傅里叶变换 (stft)，不改变音高。

提出于 SpecAugment [Park 等人, 2019]。

参数:

hop_length (int 或 None, 可选) – STFT 窗口之间的跳跃长度。（默认值：n_fft // 2，其中 n_fft == (n_freq - 1) * 2）
n_freq (int, 可选) – 来自 stft 的滤波器组数量。（默认值：201）
fixed_rate (float 或 None, 可选) – 应用于加速或减速的速率。如果提供 None，则必须将 rate 传递给 forward 方法。（默认值：None）

注意

期望的输入是原始的、复数值的频谱图。

示例

>>> spectrogram = torchaudio.transforms.Spectrogram(power=None)
>>> stretch = torchaudio.transforms.TimeStretch()
>>>
>>> original = spectrogram(waveform)
>>> stretched_1_2 = stretch(original, 1.2)
>>> stretched_0_9 = stretch(original, 0.9)

The visualization of stretched spectrograms.

使用 TimeStretch 的教程

音频特征增强

forward(complex_specgrams: Tensor, overriding_rate: Optional[float] = None) → Tensor[源]¶

参数:

complex_specgrams (Tensor) – 一个维度为 (…, freq, num_frame) 且 dtype 为复数的张量。
overriding_rate (float 或 None, 可选) – 应用于此批次的加速速率。如果未传递速率，则使用 self.fixed_rate。（默认值：None）

返回值:

拉伸后的频谱图。结果张量的复数 dtype 与输入频谱图对应，帧数变为 ceil(num_frame / rate)。

返回类型:

Tensor

TimeStretch¶

文档

教程

资源