❗公告:安全变更❗¶
TorchServe 现在默认强制启用令牌授权,并禁用模型 API 控制。这些安全功能旨在解决未经授权的 API 调用问题,并防止潜在的恶意代码被引入模型服务器。有关更多信息,请参阅以下文档: 令牌授权 (Token Authorization), 模型 API 控制 (Model API control)
TorchServe¶
TorchServe 是一款高性能、灵活且易于使用的工具,用于服务 PyTorch eager 模式和 torchscripted 模型。
基本功能¶
服务模型快速入门 - 基本服务器用法教程
模型归档快速入门 - 教程,向您展示如何打包模型归档文件。
安装 - 安装步骤
模型加载 - 如何在 TorchServe 中加载模型?
服务模型 - 解释如何使用 TorchServe
REST API - 关于 TorchServe 的 API 端点规范
gRPC API - TorchServe 支持用于推理和管理调用的 gRPC API
打包模型归档 - 解释如何打包模型归档文件,使用
model-archiver
。推理 API - 如何检查已部署模型的健康状况并获取推理结果
管理 API - 如何管理和扩展模型
日志记录 - 如何配置日志记录
指标 - 如何配置指标
Prometheus 和 Grafana 指标 - 如何在 Grafana 仪表板中使用 Prometheus 格式化的指标配置指标 API
Captum 解释 - 内置支持 Captum 解释,适用于文本和图像
使用 TorchServe 进行批量推理 - 如何在 TorchServe 中创建和提供具有批量推理的模型
工作流 - 如何创建工作流以在顺序和并行管道中组合 PyTorch 模型和 Python 函数
默认处理程序¶
示例¶
部署 LLM - 如何使用 TorchServe 轻松部署 LLM
HuggingFace 语言模型 - 此处理程序接收输入句子,可以返回序列分类、令牌分类或问答答案
多模态框架 - 构建和部署一个结合文本、音频和视频输入数据的分类器
双重翻译工作流 -
模型动物园 - 预训练模型归档列表,可直接用于 TorchServe 的推理服务。
示例 - 许多关于如何使用 TorchServe 打包和部署模型的示例
工作流示例 - 关于如何在 TorchServe 工作流中组合模型的示例
Resnet50 HPU 编译 - 关于如何在 HPU 设备上以编译模式运行模型的示例
高级功能¶
高级配置 - 描述 TorchServe 的高级配置。
A/B 测试模型 - 在将模型发布到生产环境之前,对模型进行 A/B 测试以进行回归分析
自定义服务 - 描述如何开发自定义推理服务。
加密模型服务 - 通过 KMS 进行 S3 服务器端模型加密
快照序列化 - 将模型工件序列化到 AWS Dynamo DB
基准测试和性能分析 - 使用 JMeter 或 Apache Bench 对您的模型和 TorchServe 本身进行基准测试
Kubernetes 上的 TorchServe - 演示在 Kubernetes 中使用 Helm Chart 部署 TorchServe,Azure Kubernetes Service 和 Google Kubernetes service 均支持
mlflow-torchserve - 将 mlflow 管道模型部署到 TorchServe
Kubeflow 管道 - Kubeflow 管道和 Google Vertex AI Managed Pipelines
NVIDIA MPS - 使用 NVIDIA MPS 优化单 GPU 上的多工作进程部署