torchaudio.save¶

torchaudio.save(uri: Union[BinaryIO, str, PathLike], src: Tensor, sample_rate: int, channels_first: bool = True, format: Optional[str] = None, encoding: Optional[str] = None, bits_per_sample: Optional[int] = None, buffer_size: int = 4096, backend: Optional[str] = None, compression: Optional[Union[CodecConfig, float, int]] = None)¶

将音频数据保存到文件。

注意

此函数可以处理的格式取决于后端的可用性。请使用以下函数来获取支持的格式。

FFmpeg: torchaudio.utils.ffmpeg_utils.get_audio_encoders()
Sox: torchaudio.utils.sox_utils.list_write_formats()
SoundFile: 请参考官方文档。

参数:

uri (str 或 pathlib.Path) – 音频文件路径。
src (torch.Tensor) – 要保存的音频数据。必须是 2D 张量。
sample_rate (int) – 采样率
channels_first (bool, 可选) – 如果为 True，则给定的张量被解释为 [通道, 时间]，否则为 [时间, 通道]。
format (str 或 None, 可选) –
覆盖音频格式。当 uri 参数是类路径对象时，音频格式从文件扩展名推断。如果文件扩展名缺失或不同，您可以使用此参数指定正确的格式。

当 uri 参数是类文件对象时，此参数是必需的。

有效值包括 "wav", "ogg", 和 "flac"。
encoding (str 或 None, 可选) –
更改受支持格式的编码。此参数仅对受支持的格式有效，即 "wav" 和 ""flac"`。有效值包括
- "PCM_S" (有符号整数线性 PCM)
- "PCM_U" (无符号整数线性 PCM)
- "PCM_F" (浮点 PCM)
- "ULAW" (mu-law)
- "ALAW" (a-law)
bits_per_sample (int 或 None, 可选) – 更改受支持格式的位深度。当 format 是 "wav" 和 "flac" 之一时，您可以更改位深度。有效值包括 8, 16, 24, 32 和 64。
buffer_size (int, 可选) – 处理类文件对象时使用的缓冲区大小，以字节为单位。（默认：4096）
backend (str 或 None, 可选) –
要使用的 I/O 后端。如果为 None，函数会根据输入和可用的后端选择后端。否则，必须是 ["ffmpeg", "sox", "soundfile"] 之一，并且相应的后端可用。（默认：None）

另请参阅

后端和调度器
compression (CodecConfig, float, int, 或 None, 可选) –
要应用的压缩配置。

如果选择的后端是 FFmpeg，则必须提供 CodecConfig 的实例。

否则，如果选择的后端是 SoX，则必须提供对应于 sox 命令行界面 -C 选项的 float 或 int 值。例如

"mp3"
比特率（以 kbps 为单位）与质量因子，例如 128.2，或 VBR 编码与质量因子，例如 -4.2。默认值：-4.5。

"flac"
从 0 到 8 的整数。8 是默认值和最高压缩率。

"ogg", "vorbis"
从 -1 到 10 的数字；-1 是最高压缩率和最低质量。默认值：3。

有关更多详细信息，请参考 http://sox.sourceforge.net/soxformat.html。

使用 save 的教程: 音频 I/O

音频 I/O

torchaudio.save¶

文档

教程

资源