快捷方式

频谱图

class torchaudio.transforms.Spectrogram(n_fft: int = 400, win_length: ~typing.Optional[int] = None, hop_length: ~typing.Optional[int] = None, pad: int = 0, window_fn: ~typing.Callable[[...], ~torch.Tensor] = <built-in method hann_window of type object>, power: ~typing.Optional[float] = 2.0, normalized: ~typing.Union[bool, str] = False, wkwargs: ~typing.Optional[dict] = None, center: bool = True, pad_mode: str = 'reflect', onesided: bool = True, return_complex: ~typing.Optional[bool] = None)[source]

从音频信号创建频谱图。

This feature supports the following devices: CPU, CUDA This API supports the following properties: Autograd, TorchScript
参数:
  • n_fft (int, 可选) – FFT 大小,创建 n_fft // 2 + 1 个 bin。(默认值:400

  • win_length (intNone, 可选) – 窗口大小。(默认值:n_fft

  • hop_length (intNone, 可选) – STFT 窗口之间的跳跃长度。(默认值:win_length // 2

  • pad (int, 可选) – 信号的两侧填充。(默认值:0

  • window_fn (Callable[..., Tensor], 可选) – 一个用于创建窗口张量并应用于/乘以每个帧/窗口的函数。(默认值:torch.hann_window

  • power (floatNone, 可选) – 幅度频谱的指数(必须 > 0),例如 1 表示幅度,2 表示功率等。如果为 None,则返回复数频谱。(默认值:2

  • normalized (boolstr, 可选) – 是否在 STFT 后按幅度归一化。如果输入是 str,选项为 "window""frame_length",如果需要特定类型的归一化。True 对应于 "window"。(默认值:False

  • wkwargs (dictNone, 可选) – 窗口函数的参数。(默认值:None

  • center (bool, 可选) – 是否在 waveform 的两侧填充,使得第 \(t\) 帧中心位于时间 \(t \times \text{hop\_length}\)。(默认值:True

  • pad_mode (string, 可选) – 控制当 centerTrue 时使用的填充方法。(默认值:"reflect"

  • onesided (bool, 可选) – 控制是否返回一半结果以避免冗余(默认值:True

  • return_complex (bool, 可选) – 已弃用且未使用。

示例
>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = torchaudio.transforms.Spectrogram(n_fft=800)
>>> spectrogram = transform(waveform)
使用 Spectrogram 的教程
Audio Feature Augmentation

音频特征增强

音频特征增强
StreamWriter Basic Usage

StreamWriter 基本用法

StreamWriter 基本用法
Music Source Separation with Hybrid Demucs

使用 Hybrid Demucs 进行音乐源分离

使用 Hybrid Demucs 进行音乐源分离
Speech Enhancement with MVDR Beamforming

使用 MVDR 波束成形进行语音增强

使用 MVDR 波束成形进行语音增强
Audio Feature Extractions

音频特征提取

音频特征提取
forward(waveform: Tensor) Tensor[source]
参数:

waveform (Tensor) – 维度为 (…, 时间) 的音频张量。

返回:

维度为 (…, 频率, 时间),其中频率是 n_fft // 2 + 1n_fft 是傅里叶 bin 的数量),时间是窗口跳跃次数(帧数)。

返回类型:

Tensor

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取针对初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源