目录

快捷方式

⚠️ 注意：维护有限

此项目不再积极维护。现有版本仍然可用，但没有计划中的更新、错误修复、新功能或安全补丁。用户应注意，漏洞可能无法得到解决。

❗公告：安全变更❗¶

TorchServe 现在默认强制启用令牌授权并禁用模型 API 控制。这些安全功能旨在解决未经授权的 API 调用问题，并防止潜在的恶意代码引入模型服务器。更多信息请参阅以下文档：令牌授权，模型 API 控制

TorchServe¶

TorchServe 是一个高性能、灵活且易于使用的工具，用于服务 PyTorch eager 模式和 torchscripted 模型。

基本功能¶

服务快速入门 - 基本服务器使用教程
模型归档快速入门 - 演示如何打包模型归档文件的教程。
安装 - 安装步骤
模型加载 - 如何在 TorchServe 中加载模型？
服务模型 - 解释如何使用 TorchServe
REST API - TorchServe API 端点的规范
gRPC API - TorchServe 支持用于推理和管理调用的 gRPC API
打包模型归档 - 解释如何打包模型归档文件，使用 model-archiver。
推理 API - 如何检查已部署模型的健康状况并获取推理结果
管理 API - 如何管理和扩展模型
日志记录 - 如何配置日志记录
指标 - 如何配置指标
Prometheus 和 Grafana 指标 - 如何在 Grafana 控制面板中配置使用 Prometheus 格式指标的指标 API
Captum 解释 - 内置支持 Captum 对文本和图像的解释
使用 TorchServe 进行批量推理 - 如何在 TorchServe 中创建并服务带有批量推理的模型
工作流 - 如何创建工作流以在顺序和并行管道中组合 Pytorch 模型和 Python 函数

默认处理器¶

图像分类器 - 此处理器接收一张图像并返回图像中物体的名称
文本分类器 - 此处理器接收文本（字符串）作为输入，并根据模型词汇表返回分类文本
对象检测器 - 此处理器接收一张图像并分别返回检测到的类别列表和边界框
图像分割器- 此处理器接收一张图像并返回形状为 [CL H W] 的输出，其中 CL - 类别数，H - 高度，W - 宽度

示例¶

部署 LLM - 如何使用 TorchServe 轻松部署 LLM
HuggingFace 语言模型 - 此处理器接收一个输入句子，并可返回序列分类、token 分类或问答答案
多模态框架 - 构建和部署结合文本、音频和视频输入数据的分类器
双向翻译工作流 -
模型动物园 - 预训练模型归档列表，可供 TorchServe 用于推理服务。
示例 - 关于如何使用 TorchServe 打包和部署模型的许多示例
工作流示例 - 关于如何在 TorchServe 工作流中组合模型的示例
Resnet50 HPU 编译 - 关于如何使用 HPU 设备在编译模式下运行模型的示例

高级功能¶

高级配置 - 描述高级 TorchServe 配置。
A/B 测试模型 - 在将模型投入生产之前对其进行 A/B 测试以检查退步
自定义服务 - 描述如何开发自定义推理服务。
加密模型服务 - 通过 KMS 进行 S3 服务器端模型加密
快照序列化 - 将模型 artifact 序列化到 AWS Dynamo DB
基准测试和性能分析 - 使用 JMeter 或 Apache Bench 对您的模型和 TorchServe 本身进行基准测试
TorchServe on Kubernetes - 演示使用 Helm Chart 在 Kubernetes 中部署 Torchserve，支持 Azure Kubernetes Service 和 Google Kubernetes service
mlflow-torchserve - 将 mlflow 管道模型部署到 TorchServe
Kubeflow pipelines - Kubeflow pipelines 和 Google Vertex AI Managed pipelines
NVIDIA MPS - 使用 NVIDIA MPS 优化单 GPU 上的多 worker 部署

文档

访问 PyTorch 的全面开发者文档

查看文档

教程

获取面向初学者和高级开发者的深入教程

查看教程

资源

查找开发资源并获得问题解答

查看资源