❗**公告:安全更改**❗¶
TorchServe 现在默认强制启用令牌授权并禁用模型 API 控制。这些安全功能旨在解决未经授权的 API 调用问题,并防止潜在的恶意代码被引入模型服务器。有关更多信息,请参阅以下文档:令牌授权,模型 API 控制
TorchServe¶
TorchServe 是一款高性能、灵活且易于使用的工具,用于提供 PyTorch 急切模式和 TorchScript 模型的服务。
基本功能¶
提供模型服务快速入门 - 基本服务器使用教程
模型归档快速入门 - 教您如何打包模型归档文件。
安装 - 安装步骤
模型加载 - 如何在 TorchServe 中加载模型?
提供模型服务 - 说明如何使用 TorchServe
REST API - TorchServe API 端点的规范
gRPC API - TorchServe 支持用于推理和管理调用的 gRPC API
打包模型归档 - 说明如何打包模型归档文件,使用
model-archiver
。推理 API - 如何检查已部署模型的运行状况并获取推理结果
管理 API - 如何管理和扩展模型
日志记录 - 如何配置日志记录
指标 - 如何配置指标
Prometheus 和 Grafana 指标 - 如何在 Grafana 仪表板中使用 Prometheus 格式的指标配置指标 API
Captum 解释 - 内置支持用于文本和图像的 Captum 解释
使用 TorchServe 进行批处理推理 - 如何在 TorchServe 中创建和提供具有批处理推理功能的模型
工作流 - 如何创建工作流以在顺序和并行管道中组合 Pytorch 模型和 Python 函数
默认处理器¶
示例¶
部署大型语言模型 - 如何使用 TorchServe 轻松部署大型语言模型
HuggingFace 语言模型 - 此处理器接收输入句子,并可以返回序列分类、标记分类或问答答案
多模态框架 - 构建并部署一个结合文本、音频和视频输入数据的分类器
双语翻译工作流 -
模型库 - 准备用于推理并使用 TorchServe 提供服务的预训练模型归档列表。
示例 - 许多有关如何使用 TorchServe 打包和部署模型的示例
工作流示例 - 使用 TorchServe 在工作流中组合模型的示例
Resnet50 HPU 编译 - 使用 HPU 设备以编译模式运行模型的示例
高级功能¶
高级配置 - 描述 TorchServe 的高级配置。
A/B 测试模型 - 在将模型发布到生产环境之前,对其进行 A/B 测试以检查回归情况
自定义服务 - 描述如何开发自定义推理服务。
加密模型服务 - 通过 KMS 对 S3 服务器端模型进行加密
快照序列化 - 将模型工件序列化到 AWS Dynamo DB
基准测试和性能分析 - 使用 JMeter 或 Apache Bench 对模型和 TorchServe 本身进行基准测试
Kubernetes 上的 TorchServe - 演示使用 Helm Chart 在 Azure Kubernetes Service 和 Google Kubernetes Service 中部署 Torchserve,这两个服务均受支持
mlflow-torchserve - 将 mlflow 管道模型部署到 TorchServe
Kubeflow 管道 - Kubeflow 管道和 Google Vertex AI 托管管道
NVIDIA MPS - 使用 NVIDIA MPS 优化单个 GPU 上的多工作程序部署