快捷键

频谱图

class torchaudio.transforms.Spectrogram(n_fft: int = 400, win_length: ~typing.Optional[int] = None, hop_length: ~typing.Optional[int] = None, pad: int = 0, window_fn: ~typing.Callable[[...], ~torch.Tensor] = <built-in method hann_window of type object>, power: ~typing.Optional[float] = 2.0, normalized: ~typing.Union[bool, str] = False, wkwargs: ~typing.Optional[dict] = None, center: bool = True, pad_mode: str = 'reflect', onesided: bool = True, return_complex: ~typing.Optional[bool] = None)[source]

从音频信号创建频谱图。

This feature supports the following devices: CPU, CUDA This API supports the following properties: Autograd, TorchScript
参数:
  • n_fft (int, optional) – FFT 大小,创建 n_fft // 2 + 1 个频段。 (默认值:400)

  • win_length (int or None, optional) – 窗口大小。 (默认值:n_fft)

  • hop_length (int or None, optional) – STFT 窗口之间的跳跃长度。 (默认值:win_length // 2)

  • pad (int, optional) – 信号的双边填充。 (默认值:0)

  • window_fn (Callable[..., Tensor], optional) – 用于创建窗口张量的函数,该函数将应用/乘以每个帧/窗口。 (默认值:torch.hann_window)

  • power (float or None, optional) – 幅度频谱图的指数,(必须大于 0),例如,1 表示幅度,2 表示功率等。如果为 None,则返回复数频谱。 (默认值:2)

  • normalized (bool or str, optional) – 是否在 stft 后按幅度进行归一化。如果输入是 str,则可以选择 "window""frame_length",如果需要特定归一化类型。 True 映射到 "window"。 (默认值:False)

  • wkwargs (dict or None, optional) – 窗口函数的参数。 (默认值:None)

  • center (bool, optional) – 是否在两侧填充 waveform,以便第 \(t\) 帧以时间 \(t \times \text{hop\_length}\) 为中心。 (默认值:True)

  • pad_mode (string, optional) – 当 centerTrue 时控制使用的填充方法。 (默认值:"reflect")

  • onesided (bool, optional) – 控制是否返回一半结果以避免冗余(默认值:True)

  • return_complex (bool, optional) – 已弃用且未使用。

示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = torchaudio.transforms.Spectrogram(n_fft=800)
>>> spectrogram = transform(waveform)
使用 Spectrogram 的教程
Audio Feature Augmentation

音频特征增强

音频特征增强
StreamWriter Basic Usage

StreamWriter 基本用法

StreamWriter 基本用法
Music Source Separation with Hybrid Demucs

使用混合 Demucs 进行音乐源分离

使用混合 Demucs 进行音乐源分离
Speech Enhancement with MVDR Beamforming

使用 MVDR 波束形成进行语音增强

使用 MVDR 波束形成进行语音增强
Audio Feature Extractions

音频特征提取

音频特征提取
forward(waveform: Tensor) Tensor[source]
参数:

waveform (Tensor) – 维度为 (…, time) 的音频张量。

返回值:

维度为 (…, freq, time),其中 freq 为 n_fft // 2 + 1n_fft 是傅里叶频段数,time 是窗口跳跃次数(n_frame)。

返回类型:

张量

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源