通过云合作伙伴开始

    云平台为训练和部署深度学习模型提供了强大的硬件和基础设施。请在下方选择一个云平台以开始使用 PyTorch。


    如何在 AWS 上使用 PyTorch

    为了获得 PyTorch 的完整体验,需要一台至少配备一块专用 NVIDIA GPU 的机器。虽然拥有符合这些规格的自有机器并非总是可行,但我们提供了基于云的解决方案,让您可以测试和使用 PyTorch 的全部功能。

    AWS 提供以下两种:

    • 深度学习 AMI:专用的、预构建的机器学习实例,已完整安装 PyTorch
    • 深度学习基础 AMI:空白的 Linux 和 Windows 实例,供您自定义安装 PyTorch。

    深度学习 AMI 快速入门

    如果您想使用已安装 PyTorch 并可以通过命令行登录的 Linux AWS 实例开始使用,此分步指南将帮助您实现。

    1. 登录您的 AWS 控制台。如果您没有 AWS 账户,请参阅下方的入门指南
    2. 点击 “启动虚拟机”(Launch a virtual machine)。
    3. 选择 “深度学习 AMI (Ubuntu)”(Deep Learning AMI (Ubuntu))。

      这将为您提供一个已安装预定义版本 PyTorch 的实例。如果您想要一个需要自行安装 PyTorch 的空白 AWS 实例,可以选择 “深度学习基础 AMI (Ubuntu)”(Deep Learning Base AMI (Ubuntu)),该实例将具备硬件,但未预装任何软件。

    4. 选择 GPU 计算型实例类型 p3.2xlarge

      您可以选择任何可用实例来试用 PyTorch,包括免费套餐实例,但为了获得最佳性能,建议您选择 GPU 计算型计算优化型 实例。其他实例选项包括计算优化型 c5 系列(例如 c5.2xlarge)或通用计算型 t2 系列或 t3 系列(例如 t2.2xlarge)。需要注意的是,如果您选择不含 GPU 的实例,PyTorch 将仅在 CPU 计算模式下运行,操作可能会花费更长的时间。

    5. 点击 “检查和启动”(Review and Launch)。
    6. 检查实例信息,然后点击 “启动”(Launch)。
    7. 如果您还没有可用的密钥对,需要 “创建新密钥对”(Create a new key pair)。选择一个名称,并通过 “下载密钥对”(Download Key Pair)按钮将其下载到本地。
    8. 现在点击 “启动实例”(Launch Instances)。您现在拥有了一个可用于 PyTorch 的活动实例。如果点击 “查看实例”(View Instances),您将看到正在运行的实例。
    9. 记下 公共 DNS(Public DNS),因为这将用于从命令行 ssh 连接到您的实例。
    10. 打开命令行提示符
    11. 确保您的密钥对具有适当的权限,否则您将无法登录。输入 chmod 400 path/to/downloaded/key-pair.pem
    12. 输入 ssh -i path/to/downloaded/key-pair.pem ubuntu@<您上面记下的公共 DNS>。例如:ssh -i ~/Downloads/aws-quick-start.pem ubuntu@ec2-55-181-112-129.us-west-2.compute.amazonaws.com。如果提示继续连接,输入 yes
    13. 您现在应该会看到类似 ubuntu@ip-100-30-20-95 的提示符。如果是这样,您已成功连接到您的实例。
    14. 按照下方验证步骤运行以验证 PyTorch 是否已安装。

      如果您选择的是 “深度学习基础 AMI (Ubuntu)”(Deep Learning Base AMI (Ubuntu))而不是 “深度学习 AMI (Ubuntu)”(Deep Learning AMI (Ubuntu)),则需要安装 PyTorch。请遵循 Linux 入门说明进行安装。

    快速入门验证

    为了确保 PyTorch 已正确安装,我们可以通过运行 PyTorch 示例代码来验证安装。这里我们将构建一个随机初始化的张量。

    import torch
    x = torch.rand(5, 3)
    print(x)
    

    输出应类似以下内容:

    tensor([[0.3380, 0.3845, 0.3217],
            [0.8337, 0.9050, 0.2650],
            [0.2979, 0.7141, 0.9069],
            [0.1449, 0.1132, 0.1375],
            [0.4675, 0.3947, 0.1426]])
    

    此外,要检查您的 GPU 驱动程序和 CUDA 是否已启用并可由 PyTorch 访问,请运行以下命令以返回 CUDA 驱动程序是否已启用:

    import torch
    torch.cuda.is_available()
    

    AWS 入门指南

    通常,您将使用 Amazon Elastic Compute Cloud(即 EC2)来启动实例。Amazon 提供了各种实例类型,每种都配置用于特定的用例。对于 PyTorch,强烈建议您使用具有 GPU 或自定义 AI/ML 加速器的加速计算实例,因为它们专为满足机器学习的高计算需求而设计。

    为了使用 AWS,如果您还没有 AWS 账户,需要设置一个 AWS 账户。您将创建一个用户名(您的电子邮件地址)、密码和一个 AWS 账户名称(因为您可以为不同的目的创建多个 AWS 账户)。您还需要提供联系方式和账单信息。账单信息很重要,因为尽管 AWS 提供了所谓的“免费套餐”实例,但要使用 PyTorch,您会需要更强大、付费的实例。

    登录后,您将被带到您的 AWS 控制台。您还可以通过一系列简单的教程了解更多关于 AWS 的信息。

    基于 AWS Inferentia 的实例

    AWS Inferentia 是 AWS 定制构建的芯片,旨在提供更高性能和更低成本的云端机器学习推理。Amazon EC2 Inf1 实例配备多达 16 颗 AWS Inferentia 芯片、最新的第二代英特尔至强可扩展处理器以及高达 100 Gbps 的网络能力,从而实现云端高吞吐量和最低成本的推理。您可以将 Inf1 实例与 Amazon SageMaker 结合使用以获得完全托管的工作流程,或直接使用已与 PyTorch 集成的 AWS Neuron SDK

    基于 GPU 的实例

    Amazon EC2 P4d 实例在 AWS 上提供最高的机器学习训练性能。它们由最新的 NVIDIA A100 Tensor Core GPU 提供支持,并率先在云端提供 400 Gbps 实例网络。P4d 实例部署在超大规模集群中,称为 EC2 UltraClusters,该集群由 4,000 多个 NVIDIA A100 GPU、拍比特级无阻塞网络和通过 FSx for Lustre 实现的可扩展低延迟存储组成。每个 EC2 UltraCluster 都提供超级计算机级别的性能,使您能够解决最复杂的多节点机器学习训练任务。

    对于机器学习推理,基于 AWS Inferentia 的 Inf1 实例在云端提供最低成本的推理。此外,配备 NVIDIA T4 GPU 的 Amazon EC2 G4dn 实例已针对基于 GPU 的机器学习推理和利用 NVIDIA 库的小规模训练进行了优化。

    创建并启动实例

    选择实例类型后,您需要创建、可选配置并启动您的实例。您可以从网页浏览器或命令行界面连接到您的实例。以下是针对不同平台的实例启动指南:

    Amazon SageMaker

    通过 SageMaker 服务,AWS 提供了一项完全托管的服务,使开发人员和数据科学家能够构建、训练和部署机器学习模型。

    请参阅 AWS 文档,了解如何使用 PyTorch 配置 Amazon SageMaker

    预构建 AMI

    AWS 提供预构建有现代版 PyTorch 的实例(称为 AWS 深度学习 AMI)。可用 AMI 包括:

    Amazon 发表了一篇很好的博文,介绍如何开始使用预构建 AMI。

    从零开始安装 PyTorch

    您可能更喜欢从空白实例开始安装 PyTorch。连接到实例后,安装 PyTorch 的步骤与在您选择的操作系统上本地安装相同。

    如何在 Google Cloud 上使用 PyTorch

    为了获得 PyTorch 的完整体验,需要一台至少配备一块专用 NVIDIA GPU 的机器。虽然拥有符合这些规格的自有机器并非总是可行,但我们提供了基于云的解决方案,让您可以测试和使用 PyTorch 的全部功能。

    Google Cloud 提供以下两种:

    Google Cloud 入门指南

    为了使用 Google Cloud,如果您还没有 Google 账户,需要设置一个 Google 账户。您将创建一个用户名(通常是 @gmail.com 电子邮件地址)和密码。之后,您将可以试用 Google Cloud。您还需要提供联系方式和账单信息。账单信息最初用于验证您是真实用户。然后在试用期结束后,您可以选择升级到付费账户。

    登录后,您将被带到您的 Google Cloud 控制台。您还可以通过一系列简单的教程了解更多关于 Google Cloud 的信息。

    云深度学习虚拟机映像

    Google Cloud 提供无需设置、预先配置的虚拟机,帮助您构建深度学习项目。Cloud Deep Learning VM Image 是一系列基于 Debian 的虚拟机,可让您构建和运行基于 PyTorch 的机器学习应用程序。

    基于 GPU 的虚拟机

    对于自定义虚拟机,通常您会希望使用已启用 GPU 的 Compute Engine 虚拟机实例),来构建 PyTorch 应用程序。Google 提供了多种虚拟机类型和定价选项,支持LinuxWindows,所有这些都可以针对特定用例进行配置。对于 PyTorch,强烈建议您使用已启用 GPU 的虚拟机。它们专为满足机器学习的高计算需求而设计。

    您的虚拟机费用与其中包含的 GPU 数量直接相关。例如,一个配备 NVIDIA Tesla P100 的虚拟机实际上可以适用于许多用例。

    深度学习容器

    Google Cloud 还提供预先配置和优化的 Deep Learning Containers。它们在 Google Cloud 服务中提供一致的环境,使得在云中扩展或从本地迁移变得容易。您可以灵活地部署在 Google Kubernetes Engine (GKE)、AI Platform、Cloud Run、Compute Engine、Kubernetes 和 Docker Swarm 上。

    从零开始安装 PyTorch

    您可能更喜欢从空白实例开始安装 PyTorch。连接到实例后,安装 PyTorch 的步骤与在您选择的操作系统上本地安装相同。

    如何在 Azure 上使用 PyTorch

    为了获得 PyTorch 的完整体验,需要一台至少配备一块专用 NVIDIA GPU 的机器。虽然拥有符合这些规格的自有机器并非总是可行,但我们提供了基于云的解决方案,让您可以测试和使用 PyTorch 的全部功能。

    Azure 提供

    • 一个机器学习服务,配备强大的 Python SDK,帮助您在云规模下训练和部署 PyTorch 模型。
    • 专用的、预构建的机器学习虚拟机,已完整安装 PyTorch。
    • 空白的 Linux 和 Windows 虚拟机,供您自定义安装 PyTorch。

    Azure 入门指南

    为了使用 Azure,如果您还没有 Azure 账户,需要设置一个 Azure 账户。您将使用一个微软认可的电子邮件地址和密码。您还需要提供联系方式和账单信息以验证您的身份。账单信息是必需的,因为尽管 Azure 提供了免费使用额度和免费服务,您也可能需要或想要更高阶的服务。

    登录后,您将被带到您的 Azure 门户。您还可以通过一系列简单的视频教程了解更多关于 Azure 的信息。

    Azure Machine Learning 服务

    Azure Machine Learning 服务是一个基于云的服务,可用于加速您的端到端机器学习工作流程,从训练到生产。Azure Machine Learning 使您可以轻松地将 PyTorch 模型从本地训练扩展到云端。使用 Azure ML 的 CLI 或 Python SDK,您可以利用该服务的高级功能进行分布式训练、超参数调优、运行历史记录跟踪以及生产规模的模型部署。

    请参阅文档,了解如何在 Azure Machine Learning 上使用 PyTorch。

    预配置的数据科学虚拟机

    Azure 提供预配置的数据学习和机器学习虚拟机。PyTorch 在其中许多虚拟机上可用——例如,这里有关于如何在 Ubuntu Linux 上设置 Azure 虚拟机的文档

    基于 GPU 的虚拟机

    微软提供了多种虚拟机类型和定价选项,支持LinuxWindows,所有这些都针对特定用例进行了配置。对于 PyTorch,强烈建议您使用经过 GPU 优化 的虚拟机。它们专为满足机器学习的高计算需求而设计。

    您的虚拟机费用与其中包含的 GPU 数量直接相关。例如,NC6 虚拟机是最小、最便宜的虚拟机之一,实际上可以适用于许多用例。

    从零开始安装 PyTorch

    您可能更喜欢从空白虚拟机开始安装 PyTorch。连接到虚拟机后,安装 PyTorch 的步骤与在您选择的操作系统上本地安装相同。

    如何在 Lightning Studios 上使用 PyTorch

    Lightning Studios 让您在几秒钟内在加速计算上充分体验 PyTorch 及其生态系统。您可以通过浏览器或任何本地 IDE 选择 GPU 并进行自定义,无需任何设置。

    Lightning Studios 提供:

    • 预装 PyTorch 和 PyTorch Lightning 的即用型环境
    • 在 L4、L40S 和 H100 等 GPU 上进行加速计算,并能在几秒钟内切换
    • 优化的多节点训练,可在多台机器上扩展 PyTorch 训练作业

    Lightning Studios 使您能够共享完全可重现的环境,其中预装了构建 AI 系统所需的一切,如数据处理、预训练、微调、推理等。我们的 2K 个社区构建的开源模板库已预装依赖项、模型权重、数据、代码等。

    入门

    • 访问 lightning.ai
    • 注册(每月可获赠 22 小时免费 GPU 使用时长)
    • 启动您的第一个 Studio
    • 或者在 lightning.ai/studios 复制我们的一个模板

    使用 Studios,您可以:

    • 按需付费
    • GPU 使用价格低至每小时 0.40 美元
    • 使用您自己的 AWS 积分
    • 获得 24/7 企业级支持

    构建 AI,而非基础设施

    使用 Lightning Studios,您可以在一个地方轻松使用全代码和低代码工具构建 AI 产品,还可以访问 GPU、训练模型和进行部署。

    Stable Diffusion 和 NVIDIA 的 NeMo 等 AI 产品均采用 Lightning 构建。无论您是在试验您的第一个模型、AI 应用,还是在企业规模部署 AI,Lightning 都为每个阶段提供支持——甚至可以在 10,000 多个 GPU 上预训练 LLM。