跳转到主要内容

入门

选择偏好并运行命令以在本地安装 PyTorch,或通过支持的云平台快速入门。

通过云合作伙伴开始

云平台为训练和部署深度学习模型提供了强大的硬件和基础设施。选择以下云平台开始使用 PyTorch。

微软 Azure (Microsoft Azure)

Lightning Studios

在 AWS 上使用 PyTorch

为了充分体验 PyTorch 所提供的一切,一台至少配备一块专用 NVIDIA GPU 的机器是必不可少的。虽然拥有具备这些规格的机器并不总是实用,但我们提供了基于云的解决方案,让您能够测试和使用 PyTorch 的全部功能。

AWS 提供两种:

  • 深度学习 AMI:专用的预构建机器学习实例,已安装 PyTorch
  • 深度学习基础 AMI:裸机 Linux 和 Windows 实例,供您自定义安装 PyTorch。

深度学习 AMI 快速入门

如果您想从命令行登录到已安装 PyTorch 的 Linux AWS 实例,本分步指南将帮助您完成此操作。

  1. 登录您的 AWS 控制台。如果您没有 AWS 账户,请参阅下面的入门
  2. 点击 启动虚拟机
  3. 选择 深度学习 AMI (Ubuntu)

    这为您提供了一个已安装预定义版本 PyTorch 的实例。如果您想要一个需要安装 PyTorch 的裸 AWS 实例,可以选择 深度学习基础 AMI (Ubuntu),它将拥有硬件,但没有任何已可用的软件。

  4. 选择 GPU 计算 p3.2xlarge 实例类型。

    您可以选择任何可用实例来尝试 PyTorch,甚至是_免费层_,但为了获得最佳性能,建议您选择_GPU 计算_或_计算优化_实例。其他实例选项包括计算优化 c5 系列(例如,c5.2xlarge)或通用计算 t2 系列或 t3 系列(例如,t2.2xlarge)。需要注意的是,如果您选择没有 GPU 的实例,PyTorch 将仅在 CPU 计算模式下运行,操作可能需要很长时间。

  5. 点击 审核并启动
  6. 审核实例信息并点击 启动
  7. 如果您还没有密钥对,需要创建新密钥对。选择一个名称,并通过下载密钥对按钮将其本地下载。
  8. 现在点击 启动实例。您现在有一个可用于 PyTorch 的活动实例。如果您点击 查看实例,您将看到正在运行的实例。
  9. 记下 公共 DNS,因为这将用于从命令行 ssh 到您的实例。
  10. 打开命令行提示符
  11. 确保您的密钥对具有适当的权限,否则您将无法登录。输入 chmod 400 path/to/downloaded/key-pair.pem
  12. 输入 ssh -i path/to/downloaded/key-pair.pem ubuntu@<您上面记下的公共 DNS>。例如,ssh -i ~/Downloads/aws-quick-start.pem ubuntu@ec2-55-181-112-129.us-west-2.compute.amazonaws.com。如果提示继续连接,输入 yes
  13. 您现在应该看到类似于 ubuntu@ip-100-30-20-95 的提示。如果是,您现在已连接到您的实例。
  14. 通过运行下面的验证步骤来验证 PyTorch 是否已安装。

    如果您选择的是 深度学习基础 AMI (Ubuntu) 而不是 深度学习 AMI (Ubuntu),那么您将需要安装 PyTorch。请按照Linux 入门说明进行安装。

快速启动验证

为了确保 PyTorch 正确安装,我们可以通过运行 PyTorch 示例代码来验证安装。这里我们将构建一个随机初始化的张量。

import torch
x = torch.rand(5, 3)
print(x)

输出应该类似于

tensor([[0.3380, 0.3845, 0.3217],
        [0.8337, 0.9050, 0.2650],
        [0.2979, 0.7141, 0.9069],
        [0.1449, 0.1132, 0.1375],
        [0.4675, 0.3947, 0.1426]])

此外,为了检查您的 GPU 驱动程序和 CUDA 是否已启用并可供 PyTorch 访问,请运行以下命令以返回 CUDA 驱动程序是否已启用

import torch
torch.cuda.is_available()

AWS 入门

通常,您将使用 Amazon Elastic Compute Cloud(或 EC2)来启动您的实例。Amazon 有各种实例类型,每种都针对特定用例进行了配置。对于 PyTorch,强烈建议您使用具有 GPU 或自定义 AI/ML 加速器的加速计算实例,因为它们是为机器学习的高计算需求而量身定制的。

为了使用 AWS,如果您还没有 AWS 账户,则需要设置一个AWS 账户。您将创建一个用户名(您的电子邮件地址)、密码和 AWS 账户名称(因为您可以为不同的目的创建多个 AWS 账户)。您还将提供联系和账单信息。账单信息很重要,因为虽然 AWS 确实提供了他们所谓的“免费套餐”实例,但要使用 PyTorch,您会需要更强大、付费的实例。

登录后,您将进入您的 AWS 控制台。您还可以通过一系列简单教程了解更多关于 AWS 的信息。

基于 AWS Inferentia 的实例

AWS Inferentia 是 AWS 自行构建的芯片,旨在提供更高性能和低成本的云端机器学习推理。Amazon EC2 Inf1 实例配备多达 16 个 AWS Inferentia 芯片、最新的第二代英特尔至强可扩展处理器以及高达 100 Gbps 的网络,以实现云端高吞吐量和最低成本的推理。您可以将 Inf1 实例与 Amazon SageMaker 结合使用以实现完全托管的工作流程,或者直接使用已与 PyTorch 集成的 AWS Neuron SDK

基于 GPU 的实例

Amazon EC2 P4d 实例为 AWS 上的机器学习训练提供最高性能。它们由最新的 NVIDIA A100 Tensor Core GPU 提供支持,并首次在云中提供 400 Gbps 实例网络。P4d 实例部署在名为 EC2 UltraClusters 的超大规模集群中,这些集群由超过 4,000 个 NVIDIA A100 GPU、PB 级无阻塞网络以及使用 FSx for Lustre 的可扩展低延迟存储组成。每个 EC2 UltraCluster 都提供超级计算机级的性能,使您能够解决最复杂的多节点 ML 训练任务。

对于机器学习推理,基于 AWS Inferentia 的 Inf1 实例在云中提供最低成本的推理。此外,配备 NVIDIA T4 GPU 的 Amazon EC2 G4dn 实例针对基于 GPU 的机器学习推理和利用 NVIDIA 库的小规模训练进行了优化。

创建和启动实例

一旦您决定了实例类型,您需要创建、可选配置并启动您的实例。您可以从 Web 浏览器或命令行界面连接到您的实例。以下是针对各种平台的实例启动指南

Amazon SageMaker

通过 SageMaker 服务,AWS 提供了一个完全托管的服务,允许开发人员和数据科学家构建、训练和部署机器学习模型。

请参阅 AWS 文档,了解如何将 Amazon SageMaker 与 PyTorch 配置

预构建 AMI

AWS 提供预装了现代版本 PyTorch 的实例(称为 AWS 深度学习 AMI)。可用的 AMI 有

  • Ubuntu
  • Amazon Linux
  • Windows 2016

Amazon 写了一篇关于如何开始使用预构建 AMI 的优秀博客文章

从零开始安装 PyTorch

您可能更喜欢从一个裸实例开始安装 PyTorch。一旦您连接到实例,PyTorch 的设置与在本地设置您选择的操作系统相同。

在 Google Cloud 上使用 PyTorch

为了充分体验 PyTorch 所提供的一切,一台至少配备一块专用 NVIDIA GPU 的机器是必不可少的。虽然拥有具备这些规格的机器并不总是实用,但我们提供了基于云的解决方案,让您能够测试和使用 PyTorch 的全部功能。

Google Cloud 提供两种:

Google Cloud 入门

为了使用 Google Cloud,如果您还没有 Google 账户,则需要设置一个Google 账户。您将创建一个用户名(通常是 @gmail.com 电子邮件地址)和密码。之后,您将能够试用 Google Cloud。您还将提供联系和账单信息。账单信息最初用于证明您是真实的人。然后,在您的试用期结束后,您可以选择升级到付费账户。

登录后,您将进入您的 Google Cloud 控制台。您还可以通过一系列简单教程了解更多关于 Google Cloud 的信息。

云深度学习 VM 镜像

Google Cloud 提供无需设置、预配置的虚拟机,帮助您构建深度学习项目。云深度学习 VM 镜像是一组基于 Debian 的虚拟机,允许您构建和运行基于 PyTorch 的机器学习应用程序。

基于 GPU 的虚拟机

对于自定义虚拟机,通常您会希望使用已启用 GPU 的 Compute Engine 虚拟机实例来构建 PyTorch。Google 拥有各种虚拟机类型和定价选项,包括 LinuxWindows,所有这些都可以针对特定用例进行配置。对于 PyTorch,强烈建议您使用启用 GPU 的虚拟机。它们是为机器学习的高计算需求量身定制的。

您的虚拟机的费用与它包含的 GPU 数量直接相关。例如,一台 NVIDIA Tesla P100 虚拟机实际上可以适用于许多用例。

深度学习容器

Google Cloud 还提供预配置和优化的深度学习容器。它们在 Google Cloud 服务中提供一致的环境,使其易于在云中扩展或从本地迁移。您可以灵活地部署到 Google Kubernetes Engine (GKE)、AI Platform、Cloud Run、Compute Engine、Kubernetes 和 Docker Swarm。

从零开始安装 PyTorch

您可能更喜欢从一个裸实例开始安装 PyTorch。一旦您连接到实例,PyTorch 的设置与在本地设置您选择的操作系统相同。

在 Azure 上使用 PyTorch

为了充分体验 PyTorch 所提供的一切,一台至少配备一块专用 NVIDIA GPU 的机器是必不可少的。虽然拥有具备这些规格的机器并不总是实用,但我们提供了基于云的解决方案,让您能够测试和使用 PyTorch 的全部功能。

Azure 提供

  • 一个机器学习服务,带有一个强大的 Python SDK,帮助您在云规模下训练和部署 PyTorch 模型。
  • 专用的预构建机器学习虚拟机,已安装 PyTorch。
  • 裸机 Linux 和 Windows 虚拟机,供您自定义安装 PyTorch。

Azure 入门

为了使用 Azure,如果您还没有 Azure 账户,则需要设置一个Azure 账户。您将使用一个 Microsoft 认可的电子邮件地址和密码。您还需要通过提供联系和账单信息来验证您的身份。账单信息是必需的,因为虽然 Azure 确实提供免费使用积分和免费服务,但您可能还需要或希望使用更高端的服务。

登录后,您将进入您的 Azure 门户。您还可以通过一系列简单的视频教程了解更多关于 Azure 的信息。

Azure 机器学习服务

Azure 机器学习服务是一项基于云的服务,您可以使用它来加速您的端到端机器学习工作流程,从训练到生产。Azure 机器学习允许您轻松地将 PyTorch 模型从本地机器训练扩展到云端。使用 Azure ML 的 CLI 或 Python SDK,您可以利用该服务的高级功能,进行分布式训练、超参数调优、运行历史跟踪和生产规模模型部署。

请参阅文档,了解如何将 PyTorch 与 Azure 机器学习结合使用。

预配置数据科学虚拟机

Azure 提供预配置的数据学习和机器学习虚拟机。PyTorch 在其中许多虚拟机上都可用——例如,这是关于如何在 Ubuntu Linux 上设置 Azure 虚拟机的文档

基于 GPU 的虚拟机

微软有各种虚拟机类型和定价选项,包括 LinuxWindows,所有这些都针对特定用例进行了配置。对于 PyTorch,强烈建议您使用GPU 优化的虚拟机。它们是为机器学习的高计算需求量身定制的。

您的虚拟机的费用与它包含的 GPU 数量直接相关。例如,NC6 虚拟机是最小、最便宜的虚拟机之一,实际上可以适用于许多用例。

从零开始安装 PyTorch

您可能更喜欢从一个裸机虚拟机开始安装 PyTorch。一旦您连接到虚拟机,设置 PyTorch 的方式与在本地设置您选择的操作系统相同。

在 Lightning Studios 中使用 PyTorch

Lightning Studios 让您可以在几秒钟内充分体验 PyTorch 及其生态系统在加速计算上的表现。您可以在浏览器或任何本地 IDE 中选择 GPU 并进行自定义,无需任何设置。

Lightning Studios 提供

  • 开箱即用的环境,预装 PyTorch 和 PyTorch Lightning
  • L4、L40S 和 H100 等 GPU 上的加速计算,并能够在几秒钟内切换
  • 优化的多节点训练,以跨机器扩展 PyTorch 训练任务

Lightning Studios 使您能够共享完全可重现的环境,其中预加载了构建 AI 系统所需的一切,如数据处理、预训练、微调、推理等。我们的 2000 多个社区构建的开源模板库预装了依赖项、模型权重、数据、代码等。

入门

  • 访问 lightning.ai
  • 注册(每月可获得 22 小时免费 GPU 使用时间)
  • 启动您的第一个 Studio
  • 或在 lightning.ai/studios 复制我们的一个模板

使用 Studios,您可以

  • 按需付费
  • GPU 价格低至每小时 0.40 美元
  • 使用您自己的 AWS 积分
  • 获得 24/7 企业支持

构建 AI,而非基础设施

借助 Lightning Studios,您可以在一个地方轻松构建 AI 产品,使用完整和低代码工具,并访问 GPU、训练模型和进行部署。

Stable Diffusion 和 NVIDIA 的 NeMo 等 AI 产品都是用 Lightning 构建的。无论您是第一次尝试模型、AI 应用,还是在大规模企业中部署 AI。Lightning 为每个阶段提供支持——甚至在 10,000 多个 GPU 上预训练 LLM。