随着 PyTorch 1.8 版本的发布,我们很高兴宣布面向 ROCm™ 开源平台使用 PyTorch 的用户现在有了一个新的安装选项。现在 pytorch.org 上提供了一个可安装的 Python 包,其本地安装说明采用了与仅限 CPU 配置和其他 GPU 平台上的 PyTorch 包相同简单、可选的格式。ROCm 上的 PyTorch 使用 AMD 的 MIOpen 和 RCCL 库,具备混合精度和大规模训练的完整能力。这为数据科学家、研究人员、学生以及社区中的其他人提供了一个使用 AMD GPU 加速 PyTorch 的新选择。

ROCm 生态系统
ROCm 是 AMD 面向 GPU 加速高性能计算和机器学习的开源软件平台。自 2016 年首次发布以来,ROCm 平台不断发展,支持了更多库和工具、更广泛的 Linux® 发行版以及各种新型 GPU。其中包括基于 AMD CDNA™ 架构的首款 GPU AMD Instinct™ MI100。
ROCm 生态系统对 PyTorch 有着悠久的支持历史,最初是通过 PyTorch 项目的一个分支(fork)实现,最近则通过在 PyTorch 上游代码中加入 ROCm 支持来实现。PyTorch 用户可以使用 AMD 公共 PyTorch Docker 镜像安装 PyTorch for ROCm,当然也可以从源代码构建 PyTorch for ROCm。随着 PyTorch 1.8 的发布,这些现有的安装选项现已得到一个可安装 Python 包的补充。
ROCm 的主要重点一直是大规模高性能计算。ROCm 与 AMD Instinct 系列数据中心 GPU 的结合能力特别适用于数据中心规模 HPC 的挑战。PyTorch 天然适合这种环境,因为 HPC 和 ML 工作流程变得越来越紧密。
PyTorch for ROCm 入门
此 PyTorch 构建版本的适用范围是支持 ROCm 并在 Linux 上运行的 AMD GPU。ROCm 支持的 GPU 包括所有 AMD Instinct 系列计算型数据中心 GPU,以及其他一些精选 GPU。支持的 GPU 的最新列表可在 ROCm Github 仓库中找到。确认目标系统包含受支持的 GPU 和当前 ROCm 4.0.1 版本后,PyTorch 的安装遵循与其他 Python 包相同的简单基于 Pip 的安装方式。与为其他平台构建的 PyTorch 一样,https://pytorch.ac.cn/get-started/locally/ 上的配置工具提供了具体的要运行的命令行。
PyTorch for ROCm 是基于 PyTorch 上游仓库构建的,是一个全功能的实现。值得注意的是,它包含了跨多个 GPU 的分布式训练支持,并支持加速混合精度训练。
更多信息
支持 ROCm 的 GPU 和操作系统列表可在 https://github.com/RadeonOpenCompute/ROCm 找到。ROCm 平台的通用文档可在 https://rocmdocs.amd.com/en/latest/ 找到。ROCm 学习中心位于 https://developer.amd.com/resources/rocm-resources/rocm-learning-center/。有关 AMD 面向 HPC 和 ML 的产品信息可在 https://amd.com/hpc 找到。
反馈
活跃的用户群体是 PyTorch 生态系统中极其重要的一部分。我们非常感谢在 PyTorch 讨论论坛中提供的关于 PyTorch for ROCm 使用体验的反馈,并在适当时通过 Github 报告任何问题。