通过云合作伙伴开始
将 PyTorch 与 AWS 结合使用
要充分体验 PyTorch 的所有功能,需要一台至少配备一个专用 NVIDIA GPU 的机器。虽然拥有这些规格的机器并不总是实用的,但我们有基于云的解决方案,让您能够测试和使用 PyTorch 的所有功能。
AWS 提供两种
- 深度学习 AMI:专用的、预构建的机器学习实例,包含 PyTorch
- 深度学习基础 AMI:裸机 Linux 和 Windows 实例,供您自定义安装 PyTorch。
深度学习 AMI 快速入门
如果您想开始使用已安装 PyTorch 并且可以从命令行登录的 Linux AWS 实例,本分步指南将帮助您完成此操作。
- 登录您的 AWS 控制台。如果您没有 AWS 账户,请参阅下面的入门指南。
- 单击
启动虚拟机。 - 选择
深度学习 AMI (Ubuntu)。这为您提供了一个已安装预定义版本 PyTorch 的实例。如果您想要一个需要安装 PyTorch 的裸机 AWS 实例,您可以选择
深度学习基础 AMI (Ubuntu),它将拥有硬件,但没有预装任何软件。 - 选择 GPU 计算
p3.2xlarge实例类型。您可以选择任何可用的实例来尝试 PyTorch,即使是*免费套餐*,但为了获得最佳性能,建议您选择*GPU 计算*或*计算优化*实例。其他实例选项包括计算优化 c5 系列(例如,
c5.2xlarge)或通用计算 t2 系列或 t3 系列(例如,t2.2xlarge)。需要注意的是,如果您选择没有 GPU 的实例,PyTorch 将仅在 CPU 计算模式下运行,操作可能需要更长的时间。 - 单击
审查并启动。 - 审查实例信息并单击
启动。 - 如果您还没有要使用的密钥对,您需要
创建新的密钥对。选择一个名称并通过下载密钥对按钮将其下载到本地。 - 现在点击
启动实例。您现在有一个用于 PyTorch 的活动实例。如果您点击查看实例,您将看到您的运行实例。 - 记下
公共 DNS,因为它将用于从命令行ssh到您的实例。 - 打开命令行提示符
- 确保您的密钥对具有适当的权限,否则您将无法登录。输入
chmod 400 path/to/downloaded/key-pair.pem。 - 输入
ssh -i path/to/downloaded/key-pair.pem ubuntu@<您上面记下的公共 DNS>。例如,ssh -i ~/Downloads/aws-quick-start.pem ubuntu@ec2-55-181-112-129.us-west-2.compute.amazonaws.com。如果要求继续连接,请输入yes。 - 您现在应该看到类似于
ubuntu@ip-100-30-20-95的提示符。如果是这样,您现在已连接到您的实例。 - 通过运行下面的验证步骤来验证 PyTorch 是否已安装。
如果您选择的是
深度学习基础 AMI (Ubuntu)而不是深度学习 AMI (Ubuntu),那么您将需要安装 PyTorch。请按照Linux 入门说明进行安装。
快速入门验证
为了确保 PyTorch 安装正确,我们可以通过运行 PyTorch 示例代码来验证安装。在这里我们将构建一个随机初始化的张量。
import torch
x = torch.rand(5, 3)
print(x)
输出应类似于
tensor([[0.3380, 0.3845, 0.3217],
[0.8337, 0.9050, 0.2650],
[0.2979, 0.7141, 0.9069],
[0.1449, 0.1132, 0.1375],
[0.4675, 0.3947, 0.1426]])
此外,要检查您的 GPU 驱动程序和 CUDA 是否已启用并可供 PyTorch 访问,请运行以下命令以返回 CUDA 驱动程序是否已启用
import torch
torch.cuda.is_available()
AWS 入门
通常,您将使用 Amazon Elastic Compute Cloud(或 EC2)来启动实例。Amazon 有各种实例类型,每种都针对特定用例进行配置。对于 PyTorch,强烈建议您使用具有 GPU 或自定义 AI/ML 加速器的加速计算实例,因为它们专为机器学习的高计算需求而定制。
要使用 AWS,您需要设置一个 AWS 账户,如果您还没有的话。您将创建一个用户名(您的电子邮件地址)、密码和 AWS 账户名称(因为您可以为不同目的创建多个 AWS 账户)。您还将提供联系和账单信息。账单信息很重要,因为虽然 AWS 确实提供了他们所谓的“免费套餐”实例,但要使用 PyTorch,您会需要更强大的付费实例。
登录后,您将进入您的 AWS 控制台。您甚至可以通过一系列简单教程了解有关 AWS 的更多信息。
基于 AWS Inferentia 的实例
AWS Inferentia 是 AWS 自定义构建的芯片,旨在提供更高性能、低成本的云端机器学习推理。 Amazon EC2 Inf1 实例配备多达 16 个 AWS Inferentia 芯片、最新的第二代 Intel Xeon 可扩展处理器和高达 100 Gbps 的网络,以实现云端高吞吐量和最低成本的推理。您可以将 Inf1 实例与 Amazon SageMaker 配合使用,实现完全托管的工作流程,或者直接使用与 PyTorch 集成的 AWS Neuron SDK。
基于 GPU 的实例
Amazon EC2 P4d 实例为 AWS 上的机器学习训练提供最高性能。它们由最新的 NVIDIA A100 Tensor Core GPU 提供支持,并首次在云中提供 400 Gbps 实例网络。P4d 实例部署在称为 EC2 UltraClusters 的超大规模集群中,这些集群由 4,000 多个 NVIDIA A100 GPU、Petabit 级非阻塞网络和通过 FSx for Lustre 实现的可扩展低延迟存储组成。每个 EC2 UltraCluster 都提供超级计算机级别的性能,使您能够解决最复杂的多节点 ML 训练任务。
对于 ML 推理,基于 AWS Inferentia 的 Inf1 实例提供了云中最低成本的推理。此外,配备 NVIDIA T4 GPU 的 Amazon EC2 G4dn 实例针对基于 GPU 的机器学习推理和利用 NVIDIA 库的小规模训练进行了优化。
创建和启动实例
一旦您确定了实例类型,您将需要创建、可选配置和启动您的实例。您可以从网页浏览器或命令行界面连接到您的实例。以下是各种平台实例启动指南
Amazon SageMaker
通过 SageMaker 服务,AWS 提供了一项完全托管的服务,允许开发人员和数据科学家构建、训练和部署机器学习模型。
请参阅 AWS 文档,了解 如何使用 PyTorch 配置 Amazon SageMaker。
预构建 AMI
AWS 提供了预构建了现代版本 PyTorch 的实例(称为 AWS 深度学习 AMI)。可用的 AMI 包括
- Ubuntu
- Amazon Linux
- Windows 2016
Amazon 撰写了一篇关于使用预构建 AMI 入门的优秀博客文章。
从头开始安装 PyTorch
您可能更喜欢从一个裸机实例开始安装 PyTorch。一旦您连接到您的实例,PyTorch 的设置与为您选择的操作系统本地设置相同。
将 PyTorch 与 Google Cloud 配合使用
要充分体验 PyTorch 的所有功能,需要一台至少配备一个专用 NVIDIA GPU 的机器。虽然拥有这些规格的机器并不总是实用的,但我们有基于云的解决方案,让您能够测试和使用 PyTorch 的所有功能。
Google Cloud 提供
- 专用的、预构建的机器学习平台,包含 PyTorch
- 裸机 Linux 和 Windows 虚拟机,供您自定义安装 PyTorch。
Google Cloud 入门
要使用 Google Cloud,如果您还没有 Google 帐户,则需要设置一个 Google 帐户。您将创建一个用户名(通常是 @gmail.com 电子邮件地址)和密码。之后,您将能够试用 Google Cloud。您还需要提供联系和账单信息。账单信息最初用于证明您是真实用户。然后,在您的试用期结束后,您可以选择升级到付费帐户。
登录后,您将进入您的 Google Cloud 控制台。您甚至可以通过一系列简单教程了解有关 Google Cloud 的更多信息。
Cloud 深度学习 VM 镜像
Google Cloud 提供无需设置的预配置虚拟机,帮助您构建深度学习项目。Cloud 深度学习 VM 镜像是一组基于 Debian 的虚拟机,允许您构建和运行基于 PyTorch 的机器学习应用程序。
基于 GPU 的虚拟机
对于自定义虚拟机,通常您会希望使用启用 GPU 的 Compute Engine 虚拟机实例来构建 PyTorch。Google 有各种虚拟机类型和定价选项,包括 Linux 和 Windows,所有这些都可以针对特定用例进行配置。对于 PyTorch,强烈建议您使用启用 GPU 的虚拟机。它们专为机器学习的高计算需求而定制。
您的虚拟机费用与其包含的 GPU 数量直接相关。例如,一台 NVIDIA Tesla P100 虚拟机实际上可以适用于许多用例。
深度学习容器
Google Cloud 还提供预配置和优化的深度学习容器。它们在 Google Cloud 服务中提供一致的环境,使在云中扩展或从本地转移变得容易。您可以灵活地部署到 Google Kubernetes Engine (GKE)、AI Platform、Cloud Run、Compute Engine、Kubernetes 和 Docker Swarm。
从头开始安装 PyTorch
您可能更喜欢从一个裸机实例开始安装 PyTorch。一旦您连接到您的实例,PyTorch 的设置与为您选择的操作系统本地设置相同。
将 PyTorch 与 Azure 配合使用
要充分体验 PyTorch 的所有功能,需要一台至少配备一个专用 NVIDIA GPU 的机器。虽然拥有这些规格的机器并不总是实用的,但我们有基于云的解决方案,让您能够测试和使用 PyTorch 的所有功能。
Azure 提供
- 一项机器学习服务,具有强大的 Python SDK,可帮助您在云规模下训练和部署 PyTorch 模型。
- 专用的、预构建的机器学习虚拟机,包含 PyTorch。
- 裸机 Linux 和 Windows 虚拟机,供您自定义安装 PyTorch。
Azure 入门
要使用 Azure,如果您还没有 Azure 帐户,则需要设置一个 Azure 帐户。您将使用 Microsoft 认可的电子邮件地址和密码。您还需要提供联系和账单信息以验证您的身份。账单信息是必要的,因为虽然 Azure 确实提供免费使用积分和免费服务,但您可能需要或想要更高端的服务。
登录后,您将进入您的 Azure 门户。您甚至可以通过一系列简单的视频教程了解有关 Azure 的更多信息。
Azure 机器学习服务
Azure 机器学习服务是一项基于云的服务,您可以使用它来加速端到端机器学习工作流程,从训练到生产。Azure 机器学习允许您轻松地将 PyTorch 模型从本地机器训练扩展到云。使用 Azure ML 的 CLI 或 Python SDK,您可以利用该服务的高级功能进行分布式训练、超参数调优、运行历史跟踪和生产规模模型部署。
请参阅文档,了解如何将 PyTorch 与 Azure 机器学习结合使用。
预配置数据科学虚拟机
Azure 提供 预配置的数据学习和机器学习虚拟机。PyTorch 在其中许多虚拟机上都可用——例如,这里是关于如何在 Ubuntu Linux 上设置 Azure 虚拟机的文档。
基于 GPU 的虚拟机
微软提供各种虚拟机类型和定价选项,包括 Linux 和 Windows,所有这些都针对特定用例进行了配置。对于 PyTorch,强烈建议您使用GPU 优化的虚拟机。它们专为机器学习的高计算需求而定制。
您的虚拟机费用与其包含的 GPU 数量直接相关。例如,NC6 虚拟机是最小、最便宜的虚拟机之一,实际上可以适用于许多用例。
从头开始安装 PyTorch
您可能更喜欢从裸机虚拟机开始安装 PyTorch。一旦您连接到您的虚拟机,PyTorch 的设置与为您选择的操作系统本地设置相同。
将 PyTorch 与 Lightning Studios 结合使用
Lightning Studios 让您可以在几秒钟内通过加速计算全面体验 PyTorch 及其生态系统。您可以从浏览器或任何本地 IDE 中选择 GPU 并进行自定义,无需任何设置。
Lightning Studios 提供
- 预装了 PyTorch 和 PyTorch Lightning 的即用型环境
- 在 L4、L40S 和 H100 等 GPU 上进行加速计算,并能够在几秒钟内切换
- 优化的多节点训练,以在多台机器上扩展 PyTorch 训练作业
Lightning Studios 使您能够共享完全可重现的环境,其中预加载了构建 AI 系统所需的一切,例如数据处理、预训练、微调、推理等。我们的 2K 个社区构建的开源模板库预装了依赖项、模型权重、数据、代码等。
入门
- 访问 lightning.ai
- 注册(每月可获得 22 小时免费 GPU 使用时间)
- 启动您的第一个 Studio
- 或在 lightning.ai/studios 复制我们的一个模板
通过 Studios,您可以
- 按需付费
- 以每小时 0.40 美元起的价格获取 GPU
- 使用您自己的 AWS 积分
- 享受 24/7 企业支持
构建 AI,而非基础设施
通过 Lightning Studios,您可以在一个地方轻松构建具有完整和低代码工具的 AI 产品,并访问 GPU、训练模型和部署。
Stable Diffusion 和 NVIDIA 的 NeMo 等 AI 产品均使用 Lightning 构建。无论您是尝试第一个模型、AI 应用程序,还是在企业规模部署 AI。Lightning 为每个阶段提供支持——甚至在 10,000 多个 GPU 上进行 LLM 预训练。