随着 PyTorch 1.8 的发布,我们很高兴为 ROCm™ 开放软件平台上的 PyTorch 用户宣布一个新的安装选项。一个可安装的 Python 包现已托管在 pytorch.org 上,并提供了本地安装说明,其格式与仅限 CPU 配置和其他 GPU 平台的 PyTorch 包一样简单、可选。ROCm 上的 PyTorch 包含使用 AMD MIOpen 和 RCCL 库进行混合精度和大规模训练的完整功能。这为数据科学家、研究人员、学生和社区中的其他人提供了一个新选项,可以使用 AMD GPU 开始加速 PyTorch。

ROCm 生态系统
ROCm 是 AMD 用于 GPU 加速高性能计算和机器学习的开源软件平台。自 2016 年 ROCm 最初发布以来,ROCm 平台已发展到支持更多库和工具、更广泛的 Linux® 发行版以及一系列新的 GPU。这包括 AMD Instinct™ MI100,这是首款基于 AMD CDNA™ 架构的 GPU。
ROCm 生态系统对 PyTorch 有着悠久的支持历史,最初是作为 PyTorch 项目的一个分支实现的,最近通过上游 PyTorch 代码中的 ROCm 支持。PyTorch 用户可以使用 AMD 的公共 PyTorch docker 镜像安装用于 ROCm 的 PyTorch,当然也可以从源代码构建用于 ROCm 的 PyTorch。随着 PyTorch 1.8 的发布,这些现有的安装选项现在通过提供可安装的 Python 包得到了补充。
ROCm 的主要重点始终是大规模高性能计算。ROCm 和 AMD Instinct 系列数据中心 GPU 的综合能力特别适合数据中心规模 HPC 的挑战。随着 HPC 和 ML 工作流程变得更加紧密地结合,PyTorch 自然适合这种环境。
开始使用 ROCm 上的 PyTorch
此 PyTorch 版本的范围是支持 ROCm 并在 Linux 上运行的 AMD GPU。ROCm 支持的 GPU 包括 AMD 的 Instinct 系列计算型数据中心 GPU,以及其他一些精选 GPU。支持的 GPU 的最新列表可在 ROCm Github 仓库中找到。在确认目标系统包含支持的 GPU 和当前 4.0.1 版本的 ROCm 后,PyTorch 的安装遵循与其他 Python 包相同的基于 Pip 的简单安装。与适用于其他平台的 PyTorch 构建一样,https://pytorch.ac.cn/get-started/locally/ 处的配置器提供了要运行的特定命令行。
ROCm 上的 PyTorch 是从上游 PyTorch 仓库构建的,是一个功能齐全的实现。值得注意的是,它包括对跨多个 GPU 的分布式训练的支持,并支持加速混合精度训练。
更多信息
ROCm 支持的 GPU 和操作系统的列表可在 https://github.com/RadeonOpenCompute/ROCm 找到。有关 ROCm 平台的通用文档可在 https://rocmdocs.amd.com/en/latest/ 找到。ROCm 学习中心位于 https://developer.amd.com/resources/rocm-resources/rocm-learning-center/。有关 AMD 在 HPC 和 ML 方面的产品的一般信息可在 https://amd.com/hpc 找到。
反馈
活跃的用户群是 PyTorch 生态系统极其重要的一部分。我们非常感谢您在 PyTorch 讨论论坛上提供关于 ROCm 上的 PyTorch 体验的反馈,并在适当的时候通过 Github 报告任何问题。