安装预构建二进制文件¶
torchaudio
具有适用于 PyPI (pip
) 和 Anaconda (conda
) 的二进制发行版。
有关详细信息,请参阅 https://pytorch.ac.cn/get-started/locally/。
注意
每个 torchaudio
软件包都针对特定版本的 torch
编译。请参考下表,并安装正确的 torch
和 torchaudio
对。
注意
从 0.10
开始,torchaudio 具有仅 CPU 和启用 CUDA 的二进制发行版,每个发行版都需要相应的 PyTorch 发行版。
注意
此软件是针对 FFmpeg 的未修改副本编译的,并删除了特定的 rpath,以便可以使用系统库。LGPL 源代码可以从以下位置下载:n4.1.8 (许可证)、n5.0.3 (许可证) 和 n6.0 (许可证)。
依赖项¶
-
请参考下面的兼容性矩阵,了解支持的 PyTorch 版本。
可选依赖项¶
-
使用
torchaudio.io
模块和backend="ffmpeg"
中的 I/O 函数时需要。从版本 2.1 开始,TorchAudio 官方二进制发行版与 FFmpeg 版本 6、5 和 4 兼容。(>=4.4, <7)。在运行时,TorchAudio 首先查找 FFmpeg 6,如果未找到,则继续查找 5,然后查找 4。
安装 FFmpeg 库有多种方法。请参考官方文档了解如何安装 FFmpeg。如果您使用的是 Anaconda Python 发行版,
conda install -c conda-forge 'ffmpeg<7'
将安装兼容的 FFmpeg 库。如果您需要指定 TorchAudio 搜索和链接的 FFmpeg 版本,您可以通过环境变量
TORIO_USE_FFMPEG_VERSION
指定。例如,通过设置TORIO_USE_FFMPEG_VERSION=5
,TorchAudio 将仅查找 FFmpeg 5。如果由于某种原因,此搜索机制导致问题,您可以完全禁用 FFmpeg 集成,方法是设置环境变量
TORIO_USE_FFMPEG=0
。安装 FFmpeg 库有多种方法。如果您使用的是 Anaconda Python 发行版,
conda install -c conda-forge 'ffmpeg<7'
将安装兼容的 FFmpeg 库。注意
在搜索 FFmpeg 安装时,TorchAudio 会查找名称带有版本号的库文件。即,Linux 的
libavutil.so.<VERSION>
、macOS 的libavutil.<VERSION>.dylib
和 Windows 的avutil-<VERSION>.dll
。许多公共预构建二进制文件都遵循此命名方案,但某些发行版具有未版本化的文件名。如果您在检测 FFmpeg 时遇到困难,请仔细检查您安装的库文件是否遵循此命名方案,(然后确保它们位于库搜索路径中列出的目录之一中。) -
在 I/O 函数中使用
backend="sox"
时需要。从版本 2.1 开始,TorchAudio 需要单独安装的 libsox。
如果动态链接导致问题,您可以设置环境变量
TORCHAUDIO_USE_SOX=0
,TorchAudio 将不会使用 SoX。注意
TorchAudio 查找未版本化的库文件,即 Linux 的
libsox.so
和 macOS 的libsox.dylib
。某些软件包管理器使用不同的名称安装库文件。例如,Ubuntu 上的 aptitude 安装libsox.so.3
。要让 TorchAudio 与其链接,您可以创建一个符号链接,名称为libsox.so
(并将符号链接放在库搜索路径中)。注意
TorchAudio 在 libsox 14.4.2 上进行了测试。(其他版本不太可能有效。)
-
在 I/O 函数中使用
backend="soundfile"
时需要。 -
使用 Emformer RNN-T 执行自动语音识别时需要。您可以通过运行
pip install sentencepiece
来安装它。 -
使用 Tacotron2 文本到语音转换 执行文本到语音转换时需要。
-
使用
torchaudio.kaldi_io
模块时需要。
兼容性矩阵¶
TorchAudio 的官方二进制发行版包含用 C++ 编写并链接到特定 PyTorch 版本的扩展模块。
来自不同版本的 TorchAudio 和 PyTorch 不能一起使用。请参考下表了解匹配的版本。
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|