torchaudio.info¶

torchaudio.info(uri: Union[BinaryIO, str,PathLike], format: Optional[str] = None, buffer_size: int = 4096, backend: Optional[str] = None) → AudioMetaData¶

获取音频文件的信号信息。

注意

当输入类型为 file-like object 时，此函数无法获取某些格式（例如 vorbis）的正确长度 (num_samples)。在这种情况下，num_samples 的值为 0。

参数：

uri (path-like object 或 file-like object) –
音频数据源。接受以下类型：
- path-like: 文件路径或 URL。
- file-like: 具有 read(size: int) -> bytes 方法的对象，该方法返回最多 size 长度的字节字符串。
format (str 或 None，可选) – 如果不是 None，则解释为一个提示，可能允许后端覆盖检测到的格式。(默认值：None)
buffer_size (int，可选) – 处理 file-like object 时使用的缓冲区大小，以字节为单位。(默认值：4096)
backend (str 或 None，可选) –
要使用的 I/O 后端。如果为 None，函数将根据输入和可用后端选择后端。否则，必须是 ["ffmpeg", "sox", "soundfile"] 之一，且相应的后端可用。(默认值：None)

另请参阅

后端和调度器

返回：

AudioMetaData

支持结构¶

class torchaudio.AudioMetaData[source]¶

torchaudio.info 函数的返回类型。

变量：

sample_rate (int) – 采样率
num_frames (int) – 帧数
num_channels (int) – 声道数
bits_per_sample (int) – 每样本的位数。对于有损格式或无法准确推断时，此值为 0。
encoding (str) –
音频编码 encoding 的可能取值如下：
- PCM_S: 有符号整数线性 PCM
- PCM_U: 无符号整数线性 PCM
- PCM_F: 浮点线性 PCM
- FLAC: Flac，自由无损音频编码
- ULAW: Mu-law
- ALAW: A-law
- MP3 : MP3，MPEG-1 Audio Layer III
- VORBIS: OGG Vorbis
- AMR_WB: 自适应多速率宽带
- AMR_NB: 自适应多速率窄带
- OPUS: Opus
- HTK: 单声道 16 位 PCM
- UNKNOWN : 上述都不是