AudioEffector¶

class torchaudio.io.AudioEffector(effect: Optional[str] = None, format: Optional[str] = None, *, encoder: Optional[str] = None, codec_config: Optional[CodecConfig] = None, pad_end: bool = True)[source]¶

将各种滤波器和/或编解码器应用于波形。

版本 2.1 新增功能。

参数：

effect (str 或 None, 可选) – 滤波器表达式，或设置为 None 表示不应用滤波器。有关滤波器语法的详细信息，请参阅 https://ffmpeg.net.cn/ffmpeg-filters.html#Audio-Filters。
format (str 或 None, 可选) – 提供时，将音频编码为相应的格式。默认值：None。
encoder (str 或 None, 可选) – 提供时，覆盖 format 所使用的编码器。默认值：None。
codec_config (CodecConfig 或 None, 可选) – 提供时，配置编码编解码器。应与 format 选项一起提供。
pad_end (bool, 可选) – 启用时，如果应用效果/编解码器后波形变短，则在末尾填充静音。

示例 - 基本用法

要使用 AudioEffector，首先使用一组 effect 和 format 来实例化它。

>>> # instantiate the effector
>>> effector = AudioEffector(effect=..., format=...)

然后，使用 apply() 或 stream() 方法来应用它们。

>>> # Apply the effect to the whole waveform
>>> applied = effector.apply(waveform, sample_rate)

>>> # Apply the effect chunk-by-chunk
>>> for chunk in effector.stream(waveform, sample_rate):
>>>    ...

示例 - 应用效果

请参阅 https://ffmpeg.net.cn/ffmpeg-filters.html#Filtergraph-description 了解滤波器描述概述，并参阅 https://ffmpeg.net.cn/ffmpeg-filters.html#toc-Audio-Filters 了解可用滤波器列表。

Tempo (速度) - https://ffmpeg.net.cn/ffmpeg-filters.html#atempo

>>> AudioEffector(effect="atempo=1.5")

Echo (回声) - https://ffmpeg.net.cn/ffmpeg-filters.html#aecho

>>> AudioEffector(effect="aecho=0.8:0.88:60:0.4")

Flanger (镶边) - https://ffmpeg.net.cn/ffmpeg-filters.html#flanger

>>> AudioEffector(effect="aflanger")

Vibrato (颤音) - https://ffmpeg.net.cn/ffmpeg-filters.html#vibrato

>>> AudioEffector(effect="vibrato")

Tremolo (震音) - https://ffmpeg.net.cn/ffmpeg-filters.html#tremolo

>>> AudioEffector(effect="vibrato")

您也可以同时应用多个效果。

>>> AudioEffector(effect="")

示例 - 应用编解码器

可以使用 format 参数应用编解码器。format 可以是音频格式或容器格式。如果容器格式支持多个编码器，可以使用 encoder 参数指定。

Wav 格式（未应用压缩，但样本转换为 16 位有符号整数）

>>> AudioEffector(format="wav")

带默认编码器的 Ogg 格式

>>> AudioEffector(format="ogg")

带 vorbis 编码器的 Ogg 格式

>>> AudioEffector(format="ogg", encoder="vorbis")

带 opus 编码器的 Ogg 格式

>>> AudioEffector(format="ogg", encoder="opus")

带 opus 编码器的 Webm 格式

>>> AudioEffector(format="webm", encoder="opus")

示例 - 应用带配置的编解码器

参考：https://trac.ffmpeg.org/wiki/Encode/MP3

带默认配置的 MP3

>>> AudioEffector(format="mp3")

带可变比特率的 MP3

>>> AudioEffector(format="mp3", codec_config=CodecConfig(qscale=5))

带固定比特率的 MP3

>>> AudioEffector(format="mp3", codec_config=CodecConfig(bit_rate=32_000))

使用 AudioEffector 的教程

AudioEffector 用法

音频数据增强

方法¶

apply¶

AudioEffector.apply(waveform: Tensor, sample_rate: int, output_sample_rate: Optional[int] = None) → Tensor[source]¶

将效果和/或编解码器应用于整个张量。

参数：

waveform (Tensor) – 输入波形。形状：(time, channel)
sample_rate (int) – 输入波形的采样率。
output_sample_rate (int 或 None, 可选) – 输出采样率。如果提供，将覆盖输出采样率。否则，结果张量将被重新采样以具有与输入相同的采样率。默认值：None。

返回：

结果张量。形状：(time, channel)。帧数可能与输入的帧数不同。

返回类型：

Tensor

stream¶

AudioEffector.stream(waveform: Tensor, sample_rate: int, frames_per_chunk: int, output_sample_rate: Optional[int] = None) → Iterator[Tensor][source]¶

逐块将效果和/或编解码器应用于给定张量。

参数：

waveform (Tensor) – 输入波形。形状：(time, channel)
sample_rate (int) – 波形的采样率。
frames_per_chunk (int) – 一次返回的帧数。
output_sample_rate (int 或 None, 可选) – 输出采样率。如果提供，将覆盖输出采样率。否则，结果张量将被重新采样以具有与输入相同的采样率。默认值：None。

返回：

一系列处理过的块。形状：(time, channel)，其中帧数与 frames_per_chunk 匹配，除了最后一个块可能更短。

返回类型：

Iterator[Tensor]

AudioEffector¶

方法¶

apply¶

stream¶

文档

教程

资源