快捷链接

torchaudio.info

torchaudio.info(uri: Union[BinaryIO, str, PathLike], format: Optional[str] = None, buffer_size: int = 4096, backend: Optional[str] = None) AudioMetaData

获取音频文件的信号信息。

注意

当输入类型为类文件对象时,此函数无法获取某些格式(如 vorbis)的正确长度 (num_samples)。在这种情况下,num_samples 的值为 0

参数:
  • uri (类路径对象类文件对象) –

    音频数据源。接受以下类型

    • path-like: 文件路径或 URL。

    • file-like: 具有 read(size: int) -> bytes 方法的对象,该方法返回最多 size 长度的字节字符串。

  • format (strNone, 可选) – 如果不是 None,则解释为提示,可能允许后端覆盖检测到的格式。(默认:None

  • buffer_size (int, 可选) – 处理类文件对象时要使用的缓冲区大小,以字节为单位。(默认:4096

  • backend (strNone, 可选) –

    要使用的 I/O 后端。如果 None,则函数根据输入和可用的后端选择后端。否则,必须是 ["ffmpeg", "sox", "soundfile"] 之一,并且相应的后端可用。(默认:None

    另请参阅

    后端和调度器

返回值:

AudioMetaData

使用 info 的教程
Audio I/O

音频 I/O

音频 I/O

支持结构

AudioMetaData

class torchaudio.AudioMetaData[source]

torchaudio.info 函数的返回类型。

变量:
  • sample_rate (int) – 采样率

  • num_frames (int) – 帧数

  • num_channels (int) – 通道数

  • bits_per_sample (int) – 每个采样的位数。对于有损格式或无法准确推断时,此值为 0。

  • encoding (str) –

    音频编码。编码值可以是以下之一

    • PCM_S: 有符号整数线性 PCM

    • PCM_U: 无符号整数线性 PCM

    • PCM_F: 浮点线性 PCM

    • FLAC: Flac,免费无损音频编解码器

    • ULAW: Mu-law

    • ALAW: A-law

    • MP3 : MP3, MPEG-1 音频层 III

    • VORBIS: OGG Vorbis

    • AMR_WB: 自适应多速率宽带

    • AMR_NB: 自适应多速率窄带

    • OPUS: Opus

    • HTK: 单通道 16 位 PCM

    • UNKNOWN : 以上都不是

使用 AudioMetaData 的教程
Audio I/O

音频 I/O

音频 I/O

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得解答

查看资源