入门

选择偏好并运行命令以在本地安装 PyTorch,或通过支持的云平台快速入门。

通过云合作伙伴启动

云平台为训练和部署深度学习模型提供了强大的硬件和基础设施。选择下方的云平台,开始使用 PyTorch。


在 AWS 上使用 PyTorch

为了充分体验 PyTorch 的功能,需要一台至少配备一块专用 NVIDIA GPU 的机器。虽然拥有具备这些规格的个人机器并不总是现实的,但我们提供的云端解决方案可以让您测试并使用 PyTorch 的全部功能。

AWS 提供以下两种选择:

  • 深度学习 AMI:专用的预构建机器学习实例,内置 PyTorch。
  • 深度学习基础 AMI:纯净的 Linux 和 Windows 实例,供您自定义安装 PyTorch。

深度学习 AMI 快速入门

如果您想从一台已安装 PyTorch 且可通过命令行登录的 Linux AWS 实例开始,这份分步指南将为您提供帮助。

  1. 登录您的 AWS 控制台。如果您还没有 AWS 账户,请参阅下方的入门指南
  2. 点击 启动虚拟机 (Launch a virtual machine)
  3. 选择 深度学习 AMI (Ubuntu) (Deep Learning AMI (Ubuntu))

    这将为您提供一个已预装特定版本 PyTorch 的实例。如果您需要一个需要手动安装 PyTorch 的纯净 AWS 实例,可以选择 深度学习基础 AMI (Ubuntu) (Deep Learning Base AMI (Ubuntu)),它具备硬件支持,但不含任何预装软件。

  4. 选择 GPU 计算实例类型 p3.2xlarge

    您可以选择任何可用实例来试用 PyTorch,甚至是免费套餐,但为了获得最佳性能,建议使用 GPU 计算 (GPU compute)计算优化 (Compute optimized) 实例。其他实例选项包括计算优化型 c5 系列(例如 c5.2xlarge)或通用计算型 t2/t3 系列(例如 t2.2xlarge)。需要注意的是,如果您选择没有 GPU 的实例,PyTorch 将仅在 CPU 计算模式下运行,操作速度可能会慢得多。

  5. 点击 审核并启动 (Review and Launch)
  6. 查看实例信息并点击 启动 (Launch)
  7. 如果您还没有密钥对,请 创建一个新密钥对 (Create a new key pair)。选择一个名称,并通过 下载密钥对 (Download Key Pair) 按钮将其保存到本地。
  8. 现在点击 启动实例 (Launch Instances)。您现在拥有了一个可用于 PyTorch 的活动实例。如果您点击 查看实例 (View Instances),将看到您正在运行的实例。
  9. 记下 公有 DNS (Public DNS),稍后将使用它通过命令行 ssh 进入您的实例。
  10. 打开命令行提示符
  11. 确保您的密钥对具有正确的权限,否则您将无法登录。输入 chmod 400 path/to/downloaded/key-pair.pem
  12. 输入 ssh -i path/to/downloaded/key-pair.pem ubuntu@<上述公有 DNS>。例如:ssh -i ~/Downloads/aws-quick-start.pem ubuntu@ec2-55-181-112-129.us-west-2.compute.amazonaws.com。如果提示是否继续连接,请输入 yes
  13. 现在您应该会看到类似 ubuntu@ip-100-30-20-95 的提示符。如果是这样,说明您已成功连接到实例。
  14. 通过运行下方的验证步骤来确认 PyTorch 已安装。

    如果您选择了 深度学习基础 AMI (Ubuntu) 而不是 深度学习 AMI (Ubuntu),则需要手动安装 PyTorch。请按照 Linux 入门说明进行安装。

快速入门验证

为了确保 PyTorch 安装正确,我们可以通过运行简单的 PyTorch 代码来验证。在此我们将构建一个随机初始化的张量。

import torch
x = torch.rand(5, 3)
print(x)

输出应该类似于

tensor([[0.3380, 0.3845, 0.3217],
        [0.8337, 0.9050, 0.2650],
        [0.2979, 0.7141, 0.9069],
        [0.1449, 0.1132, 0.1375],
        [0.4675, 0.3947, 0.1426]])

此外,要检查 GPU 驱动程序和 CUDA 是否启用并可被 PyTorch 访问,请运行以下命令,查看 CUDA 驱动程序是否已启用

import torch
torch.cuda.is_available()

AWS 入门指南

通常,您将使用 Amazon Elastic Compute Cloud (或 EC2) 来启动实例。Amazon 拥有各种 实例类型,每种实例都针对特定用例进行了配置。对于 PyTorch,强烈建议使用具备 GPU 或自定义 AI/ML 加速器的加速计算实例,因为它们是为机器学习的高计算需求量身定制的。

为了使用 AWS,如果您还没有账户,需要注册一个 AWS 账户。您需要创建一个用户名(电子邮件地址)、密码和一个 AWS 账户名(您可以为不同目的创建多个 AWS 账户)。您还需要提供联系方式和账单信息。账单信息非常重要,因为虽然 AWS 确实提供了所谓的“免费套餐”实例,但要使用 PyTorch,您可能需要功能更强大、付费的实例。

登录后,您将进入 AWS 控制台。您还可以通过一系列 简单的教程 了解更多关于 AWS 的信息。

基于 AWS Inferentia 的实例

AWS Inferentia 是由 AWS 定制的一款芯片,旨在提供云端更高性能和低成本的机器学习推理。Amazon EC2 Inf1 实例配备了多达 16 个 AWS Inferentia 芯片、最新的第二代 Intel Xeon 可扩展处理器以及高达 100 Gbps 的网络带宽,从而在云端实现高吞吐量和最低成本的推理。您可以将 Inf1 实例与 Amazon SageMaker 结合使用以获得完全托管的工作流,或者直接使用已集成 PyTorch 的 AWS Neuron SDK

基于 GPU 的实例

Amazon EC2 P4d 实例 为 AWS 上的机器学习训练提供最高性能。它们由最新的 NVIDIA A100 Tensor Core GPU 驱动,并提供云端首创的 400 Gbps 实例网络。P4d 实例部署在名为 EC2 UltraClusters 的超大规模集群中,这些集群由超过 4,000 个 NVIDIA A100 GPU、Petabit 级无阻塞网络以及带有 FSx for Lustre 的可扩展低延迟存储组成。每个 EC2 UltraCluster 都提供超级计算机级的性能,使您能够解决最复杂的跨节点 ML 训练任务。

对于 ML 推理,基于 AWS Inferentia 的 Inf1 实例提供了云端最低成本的推理方案。此外,配备 NVIDIA T4 GPU 的 Amazon EC2 G4dn 实例 针对基于 GPU 的机器学习推理和利用 NVIDIA 库的小规模训练进行了优化。

创建并启动实例

选定实例类型后,您需要创建、配置(可选)并启动您的实例。您可以从 Web 浏览器或命令行界面连接到实例。以下是针对各种平台的实例启动指南:

Amazon SageMaker

通过 SageMaker 服务,AWS 提供了一项完全托管的服务,允许开发人员和数据科学家构建、训练和部署机器学习模型。

参阅 AWS 文档了解如何配置 Amazon SageMaker 与 PyTorch

预构建 AMI

AWS 提供预装现代版本 PyTorch 的实例(称为 AWS 深度学习 AMI)。可用的 AMI 包括:

  • Ubuntu
  • Amazon Linux
  • Windows 2016

Amazon 编写了一篇关于如何使用预构建 AMI 入门的优秀博文

从零开始安装 PyTorch

您可能更倾向于从纯净实例开始安装 PyTorch。连接到实例后,设置 PyTorch 的过程与您在所选操作系统上进行本地设置相同。

在 Google Cloud 上使用 PyTorch

为了充分体验 PyTorch 的功能,需要一台至少配备一块专用 NVIDIA GPU 的机器。虽然拥有具备这些规格的个人机器并不总是现实的,但我们提供的云端解决方案可以让您测试并使用 PyTorch 的全部功能。

Google Cloud 提供以下两种选择:

Google Cloud 入门指南

为了使用 Google Cloud,如果您还没有账户,需要设置一个 Google 账户。您将创建一个用户名(通常是 @gmail.com 电子邮件地址)和密码。之后,您就可以 试用 Google Cloud。您还需要提供联系方式和账单信息。账单信息最初用于验证身份,试用期结束后,您可以选择升级为付费账户。

登录后,您将进入 Google Cloud 控制台。您还可以通过一系列 简单的教程 了解更多关于 Google Cloud 的信息。

云深度学习虚拟机镜像

Google Cloud 提供无需设置的预配置虚拟机,帮助您构建深度学习项目。云深度学习虚拟机镜像 (Cloud Deep Learning VM Image) 是一组基于 Debian 的虚拟机,允许您构建和运行基于 PyTorch 的机器学习应用程序。

基于 GPU 的虚拟机

对于自定义虚拟机,通常需要使用启用了 GPU 的 Compute Engine 虚拟机实例 来进行 PyTorch 开发。Google 拥有 多种虚拟机类型 和定价选项,支持 LinuxWindows,所有这些都可以针对特定用例进行配置。对于 PyTorch,强烈建议使用 启用 GPU 的 虚拟机,它们是为机器学习的高计算需求量身定制的。

虚拟机的费用与它所包含的 GPU 数量直接相关。例如,单个 NVIDIA Tesla P100 虚拟机实际上就足以胜任许多用例。

深度学习容器

Google Cloud 还提供预配置且经过优化的深度学习容器。它们在 Google Cloud 服务之间提供了一致的环境,使您可以轻松在云端进行扩展或从本地迁移。您可以灵活地部署在 Google Kubernetes Engine (GKE)、AI Platform、Cloud Run、Compute Engine、Kubernetes 和 Docker Swarm 上。

从零开始安装 PyTorch

您可能更倾向于从纯净实例开始安装 PyTorch。连接到实例后,设置 PyTorch 的过程与您在所选操作系统上进行本地设置相同。

在 Azure 上使用 PyTorch

为了充分体验 PyTorch 的功能,需要一台至少配备一块专用 NVIDIA GPU 的机器。虽然拥有具备这些规格的个人机器并不总是现实的,但我们提供的云端解决方案可以让您测试并使用 PyTorch 的全部功能。

Azure 提供

  • 带有强大 Python SDK 的 机器学习服务,帮助您在云端规模化训练和部署 PyTorch 模型。
  • 专用的预构建 机器学习虚拟机,内置 PyTorch。
  • 纯净的 Linux 和 Windows 虚拟机,供您自定义安装 PyTorch。

Azure 入门指南

为了使用 Azure,如果您还没有账户,需要设置一个 Azure 账户。您需要使用 Microsoft 认可的电子邮件地址和密码。您还需要通过提供联系方式和账单信息来验证身份。账单信息是必要的,因为虽然 Azure 提供免费使用额度和免费服务,但您可能需要或想要使用更高规格的服务。

登录后,您将进入 Azure 门户。您还可以通过一系列 简单的视频教程 了解更多关于 Azure 的信息。

Azure 机器学习服务

Azure 机器学习服务 是一项云端服务,您可以使用它来加速从训练到生产的端到端机器学习工作流。Azure 机器学习允许您轻松地将 PyTorch 模型训练从本地机器迁移并扩展到云端。使用 Azure ML 的 CLI 或 Python SDK,您可以利用该服务的高级功能进行分布式训练、超参数调整、运行历史跟踪以及生产级的模型部署。

参阅 文档 了解如何将 PyTorch 与 Azure 机器学习结合使用。

预配置的数据科学虚拟机

Azure 提供 预配置的 数据学习和机器学习虚拟机。其中许多都内置了 PyTorch - 例如,这是在 Ubuntu Linux 上设置 Azure 虚拟机的文档

基于 GPU 的虚拟机

Microsoft 拥有各种虚拟机类型和定价选项,支持 LinuxWindows,它们都针对特定用例进行了配置。对于 PyTorch,强烈建议使用 GPU 优化型 虚拟机,它们是为机器学习的高计算需求量身定制的。

虚拟机的费用与它所包含的 GPU 数量直接相关。例如,NC6 虚拟机是最小、最便宜的虚拟机之一,实际上可以胜任许多用例。

从零开始安装 PyTorch

您可能更倾向于从纯净虚拟机开始安装 PyTorch。连接到虚拟机后,设置 PyTorch 的过程与您在所选操作系统上进行本地设置相同。

在 Lightning Studios 上使用 PyTorch

Lightning Studios 让您可以在几秒钟内通过加速计算完全体验 PyTorch 及其生态系统。您可以从浏览器或任何本地 IDE 中选择 GPU 并进行自定义,无需任何设置。

Lightning Studios 提供:

  • 预装 PyTorch 和 PyTorch Lightning 的即用型环境
  • 诸如 L4、L40S 和 H100 等 GPU 上的加速计算,并能在数秒内切换
  • 经过优化的多节点训练,可跨多台机器扩展 PyTorch 训练作业

Lightning Studios 使您能够共享完全可复现的环境,这些环境预装了构建 AI 系统所需的一切,如数据处理、预训练、微调、推理等。我们拥有 2000 多个由社区构建的开源模板库,其中预装了依赖项、模型权重、数据、代码等。

入门

  • 前往 lightning.ai
  • 注册(每月可获得 22 小时的免费 GPU 时间)
  • 启动您的第一个 Studio
  • 或者在 lightning.ai/studios 复制我们的一个模板

使用 Studios,您可以:

  • 按需付费
  • 获取 GPU,低至每小时 $0.40
  • 使用您自己的 AWS 积分
  • 获取 24/7 企业级支持

构建 AI,而非基础设施

借助 Lightning Studios,您可以在一个平台上通过全代码和低代码工具轻松构建 AI 产品,此外还能访问 GPU、训练模型并进行部署。

Stable Diffusion 和 NVIDIA NeMo 等 AI 产品都是使用 Lightning 构建的。无论您是在试验第一个模型、AI 应用,还是在企业规模下部署 AI,Lightning 都能为每个阶段提供支持——甚至包括在 10,000 多个 GPU 上进行 LLM 预训练。