torchaudio.save¶

torchaudio.save(uri: Union[BinaryIO, str, PathLike], src: Tensor, sample_rate: int, channels_first: bool = True, format: Optional[str] = None, encoding: Optional[str] = None, bits_per_sample: Optional[int] = None, buffer_size: int = 4096, backend: Optional[str] = None, compression: Optional[Union[CodecConfig, float,int]] = None)¶

将音频数据保存到文件。

注意

此函数可处理的格式取决于后端的可用性。请使用以下函数获取支持的格式。

FFmpeg: torchaudio.utils.ffmpeg_utils.get_audio_encoders()
Sox: torchaudio.utils.sox_utils.list_write_formats()
SoundFile: 请参考官方文档。

参数:

uri (str 或 pathlib.Path) – 音频文件路径。
src (torch.Tensor) – 要保存的音频数据。必须是二维张量。
sample_rate (int) – 采样率
channels_first (bool, 可选) – 如果为 True，则给定张量解释为 [通道, 时间]，否则解释为 [时间, 通道]。
format (str 或 None, 可选) –
覆盖音频格式。当 uri 参数是类似路径的对象时，音频格式会从文件扩展名推断。如果文件扩展名缺失或不同，可以使用此参数指定正确的格式。

当 uri 参数是类似文件的对象时，此参数是必需的。

有效值包括 "wav"、"ogg" 和 "flac"。
encoding (str 或 None, 可选) –
更改受支持格式的编码。此参数仅对受支持的格式有效，即 "wav" 和 "flac"。有效值包括
- "PCM_S" (带符号整数线性 PCM)
- "PCM_U" (无符号整数线性 PCM)
- "PCM_F" (浮点 PCM)
- "ULAW" (mu-law)
- "ALAW" (a-law)
bits_per_sample (int 或 None, 可选) – 更改受支持格式的位深度。当 format 为 "wav" 或 "flac" 时，可以更改位深度。有效值包括 8、16、24、32 和 64。
buffer_size (int, 可选) – 处理类似文件对象时使用的缓冲区大小，以字节为单位。（默认值：4096）
backend (str 或 None, 可选) –
要使用的 I/O 后端。如果为 None，函数将根据输入和可用后端选择后端。否则，必须是 ["ffmpeg", "sox", "soundfile"] 之一，且相应的后端必须可用。（默认值：None）

另请参阅

后端和调度器
compression (CodecConfig, float, int, 或 None, 可选) –
要应用的压缩配置。

如果选择的后端是 FFmpeg，则必须提供 CodecConfig 的实例。

否则，如果选择的后端是 SoX，则必须提供对应于 sox 命令行界面选项 -C 的浮点或整数值。例如：

"mp3"
可以是带有质量因子的比特率（以 kbps 为单位），例如 128.2，也可以是带有质量因子的 VBR 编码，例如 -4.2。默认值：-4.5。

"flac"
从 0 到 8 的整数。8 是默认值和最高压缩率。

"ogg", "vorbis"
从 -1 到 10 的数字；-1 是最高压缩率和最低质量。默认值：3。

有关更多详细信息，请参阅http://sox.sourceforge.net/soxformat.html。

使用 save 的教程: 音频 I/O

音频 I/O

torchaudio.save¶

文档

教程

资源