快捷方式

频谱图

class torchaudio.transforms.Spectrogram(n_fft: int = 400, win_length: ~typing.Optional[int] = None, hop_length: ~typing.Optional[int] = None, pad: int = 0, window_fn: ~typing.Callable[[...], ~torch.Tensor] = <built-in method hann_window of type object>, power: ~typing.Optional[float] = 2.0, normalized: ~typing.Union[bool, str] = False, wkwargs: ~typing.Optional[dict] = None, center: bool = True, pad_mode: str = 'reflect', onesided: bool = True, return_complex: ~typing.Optional[bool] = None)[source]

从音频信号创建频谱图。

This feature supports the following devices: CPU, CUDA This API supports the following properties: Autograd, TorchScript
参数:
  • n_fft (int, 可选) – FFT 大小,创建 n_fft // 2 + 1 个 bins。(默认值:400

  • win_length (intNone, 可选) – 窗口大小。(默认值:n_fft

  • hop_length (intNone, 可选) – STFT 窗口之间的跳跃长度。(默认值:win_length // 2

  • pad (int, 可选) – 信号的双边填充。(默认值:0

  • window_fn (Callable[..., Tensor], 可选) – 用于创建窗口张量的函数,该张量应用于/乘以每个帧/窗口。(默认值:torch.hann_window

  • power (floatNone, 可选) – 幅度频谱的指数,(必须 > 0)例如,1 表示幅度,2 表示功率等。如果为 None,则返回复数频谱。(默认值:2

  • normalized (boolstr, 可选) – 是否在 stft 后按幅度归一化。如果输入是 str,则选项为 "window""frame_length",如果需要特定的归一化类型。True 映射到 "window"。(默认值:False

  • wkwargs (dictNone, 可选) – 窗口函数的参数。(默认值:None

  • center (bool, 可选) – 是否在两侧填充 waveform,以便第 \(t\) 帧以时间 \(t \times \text{hop\_length}\) 为中心。(默认值:True

  • pad_mode (string, 可选) – 控制当 centerTrue 时使用的填充方法。(默认值:"reflect"

  • onesided (bool, 可选) – 控制是否返回一半结果以避免冗余(默认值:True

  • return_complex (bool, 可选) – 已弃用且未使用。

示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = torchaudio.transforms.Spectrogram(n_fft=800)
>>> spectrogram = transform(waveform)
使用 Spectrogram 的教程
Audio Feature Augmentation

音频特征增强

音频特征增强
StreamWriter Basic Usage

StreamWriter 基本用法

StreamWriter 基本用法
Music Source Separation with Hybrid Demucs

使用混合 Demucs 的音乐源分离

使用混合 Demucs 的音乐源分离
Speech Enhancement with MVDR Beamforming

使用 MVDR 波束成形的语音增强

使用 MVDR 波束成形的语音增强
Audio Feature Extractions

音频特征提取

音频特征提取
forward(waveform: Tensor) Tensor[source]
参数:

waveform (Tensor) – 音频张量,维度为 (…, time)。

返回:

维度 (…, freq, time),其中 freq 为 n_fft // 2 + 1,其中 n_fft 是傅里叶 bins 的数量,time 是窗口跳数 (n_frame)。

返回类型:

Tensor

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深度教程

查看教程

资源

查找开发资源并获得问题解答

查看资源