SGLang 加入 PyTorch 生态系统：高效的 LLM 服务引擎

我们非常高兴地宣布 SGLang 项目已集成到 PyTorch 生态系统中！此次集成确保 SGLang 符合 PyTorch 的标准和实践，为开发者提供了一个可靠且受社区支持的框架，用于快速灵活地部署大型语言模型（LLM）。

要查看 PyTorch 生态系统，请访问 PyTorch Landscape，并了解更多关于项目如何加入 PyTorch 生态系统的信息。

关于 SGLang

SGLang 是一个用于大型语言模型和视觉语言模型的快速服务引擎。它通过协同设计后端运行时和前端语言，使与模型的交互更快、更可控。

其核心功能包括：

快速后端运行时：通过 RadixAttention 实现前缀缓存、零开销 CPU 调度器、连续批处理、令牌注意力（分页注意力）、推测性解码、张量并行、分块预填充、结构化输出和量化 (FP8/INT4/AWQ/GPTQ) 来提供高效服务。
灵活的前端语言：提供直观的接口，用于编程 LLM 应用程序，包括链式生成调用、高级提示、控制流、多模态输入、并行和外部交互。
广泛的模型支持：支持各种生成模型（Llama、Gemma、Mistral、Qwen、DeepSeek、LLaVA 等）、嵌入模型 (e5-mistral、gte、mcdse) 和奖励模型 (Skywork)，并且易于扩展以集成新模型。
活跃社区：SGLang 是开源的，并由一个活跃的社区支持，已在行业中得到应用。

SGLang 以其高速著称。在服务吞吐量和延迟方面，它通常能显著优于其他最先进的框架。您可以从过去的发布博客文章中了解更多底层技术：v0.2 博客、v0.3 博客、v0.4 博客。

SGLang 已被领先的工业公司和前沿研究实验室广泛采用。例如，xAI 使用 SGLang 来服务其旗舰模型 Grok 3，该模型目前根据 Chatbot Arena 排行榜是最佳模型。Microsoft Azure 使用 SGLang 在 AMD GPU 上服务 DeepSeek R1，该模型目前是最佳开源模型。

服务 DeepSeek 模型

您可以使用以下命令轻松启动 Docker 容器来服务 DeepSeek 模型

# Pull the latest image
docker pull lmsysorg/sglang:latest

# Launch a server
docker run --gpus all --shm-size 32g -p 30000:30000 -v ~/.cache/huggingface:/root/.cache/huggingface --ipc=host --network=host --privileged lmsysorg/sglang:latest \
    python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code --port 30000

然后您可以通过与 OpenAI 兼容的 API 查询服务器

import openai
client = openai.Client(base_url=f"http://127.0.0.1:30000/v1", api_key="None")

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3",
    messages=[
        {"role": "user", "content": "List 3 countries and their capitals."},
    ],
    temperature=0,
    max_tokens=64,
)

上述服务器启动命令适用于 8xH200。您可以在 https://docs.sglang.com.cn/references/deepseek.html 上找到其他硬件（MI300X、H100、A100、H20、L40S）的详细说明。

SGLang 集成了 DeepSeek 特定的优化，例如 MLA 吞吐量优化、MLA 优化内核、数据并行注意力、多令牌预测和 DeepGemm，使其成为数十家公司（包括 AMD、NVIDIA 和许多云提供商）服务 DeepSeek 模型的首选。团队正在积极努力，根据以下 2025 年上半年路线图集成更多优化。

服务 Llama 模型

同样，您可以使用以下命令启动 Llama 3.1 文本模型的服务器

python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct

或者使用以下命令启动 Llama 3.2 多模态模型的服务器

python3 -m sglang.launch_server --model-path meta-llama/Llama-3.2-11B-Vision-Instruct  --chat-template=llama_3_vision

路线图

今年，SGLang 团队将继续突破系统效率的极限。您可以在此处找到 2025 年上半年的路线图。重点是

类似于 DeepSeek 推理系统的面向吞吐量的大规模部署
长上下文优化
低延迟推测性解码
强化学习训练框架集成
内核优化

社区

SGLang 已部署到大规模生产中，每天生成数万亿个令牌。它拥有一个活跃的社区，GitHub 上有三百多名贡献者。它得到了以下机构的支持：AMD、Atlas Cloud、Baseten、Cursor、DataCrunch、Etched、Hyperbolic、iFlytek、Jam & Tea Studios、LinkedIn、LMSYS、美团、Nebius、Novita AI、NVIDIA、RunPod、斯坦福大学、加州大学伯克利分校、加州大学洛杉矶分校、xAI 和 01.AI。

结论

我们很高兴欢迎 SGLang 加入 PyTorch 生态系统。SGLang 加速了大型语言和视觉语言模型的服务。它被业界广泛采用，为 Grok 和 DeepSeek 等前沿模型的大规模在线服务提供支持。

我们邀请您探索 SGLang GitHub 仓库，加入 Slack 社区，并通过 contact@sglang.ai 联系我们进行咨询或合作。携手并进，我们可以让每个人都能使用强大的 AI 模型。

SGLang 加入 PyTorch 生态系统：高效的 LLM 服务引擎

关于 SGLang

服务 DeepSeek 模型

服务 Llama 模型

路线图

社区

结论

文档

教程

资源

保持联系以获取更新、活动信息和最新新闻