
我们非常激动地宣布,SGLang 项目现已正式加入 PyTorch 生态系统!此次整合确保了 SGLang 与 PyTorch 的标准和实践保持一致,为开发者提供了一个可靠且由社区支持的框架,用于快速、灵活地进行大语言模型(LLM)服务。
要查看 PyTorch 生态系统,请访问 PyTorch 生态全景图,并了解更多关于项目如何 加入 PyTorch 生态系统的信息。
关于 SGLang
SGLang 是一个针对大语言模型和多模态模型的高速服务引擎。它通过协同设计后端运行时与前端语言,使模型交互变得更加快速且易于控制。
其核心功能包括:
- 高性能后端运行时:提供高效的服务支持,具备 RadixAttention 前缀缓存、零开销 CPU 调度器、持续批处理(Continuous Batching)、Token Attention(分页注意力机制)、投机采样(Speculative Decoding)、张量并行、分块预填充(Chunked Prefill)、结构化输出以及量化支持(FP8/INT4/AWQ/GPTQ)。
- 灵活的前端语言:为 LLM 应用编程提供直观的接口,包括链式生成调用、高级提示工程、控制流、多模态输入、并行处理以及外部交互。
- 广泛的模型支持:支持多种生成式模型(Llama、Gemma、Mistral、Qwen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte、mcdse)和奖励模型(Skywork),并具有极佳的扩展性,可轻松集成新模型。
- 活跃的社区:SGLang 是开源项目,背后拥有活跃的开发者社区,并获得了广泛的行业应用。
SGLang 以其卓越的速度而闻名。在服务吞吐量和延迟方面,它经常能显著优于其他最先进的框架。你可以通过过往的发布博客深入了解其底层技术:v0.2 博客、v0.3 博客、v0.4 博客。
SGLang 已被领先的行业公司和前沿研究实验室广泛采用。例如,xAI 使用 SGLang 来服务其旗舰模型 Grok 3,该模型目前在 Chatbot Arena 排行榜上名列前茅。微软 Azure 使用 SGLang 在 AMD GPU 上部署 DeepSeek R1,这是目前最顶尖的开源模型之一。
DeepSeek 模型服务
你可以通过以下命令轻松启动 Docker 容器来部署 DeepSeek 模型
# Pull the latest image
docker pull lmsysorg/sglang:latest
# Launch a server
docker run --gpus all --shm-size 32g -p 30000:30000 -v ~/.cache/huggingface:/root/.cache/huggingface --ipc=host --network=host --privileged lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code --port 30000
随后,你可以使用兼容 OpenAI 的 API 向服务器发送查询
import openai
client = openai.Client(base_url=f"http://127.0.0.1:30000/v1", api_key="None")
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V3",
messages=[
{"role": "user", "content": "List 3 countries and their capitals."},
],
temperature=0,
max_tokens=64,
)
上述服务器启动命令适用于 8xH200 配置。你可以在 https://docs.sglang.com.cn/references/deepseek.html 获取其他硬件(MI300X、H100、A100、H20、L40S)的详细指南。
SGLang 集成了针对 DeepSeek 的深度优化,例如 MLA 吞吐量优化、MLA 优化内核、数据并行注意力、多 Token 预测以及 DeepGemm。这使其成为数十家公司(包括 AMD、NVIDIA 及多家云服务商)部署 DeepSeek 模型的首选方案。团队正致力于根据以下 2025 年上半年路线图整合更多优化措施。
Llama 模型服务
同样,你可以通过以下方式启动 Llama 3.1 文本模型服务器
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct
或者使用以下方式启动 Llama 3.2 多模态模型服务器
python3 -m sglang.launch_server --model-path meta-llama/Llama-3.2-11B-Vision-Instruct --chat-template=llama_3_vision
路线图
今年,SGLang 团队将继续突破系统效率的极限。你可以在此处找到 2025 年上半年的路线图。重点工作包括:
- 类似于 DeepSeek 推理系统的面向吞吐量的大规模部署
- 长上下文优化
- 低延迟投机采样
- 强化学习训练框架集成
- 内核优化
社区
SGLang 已部署于大规模生产环境,每天生成数以万亿计的 Token。其社区活跃,在 GitHub 上拥有超过 300 名贡献者。支持该项目的机构包括:AMD、Atlas Cloud、Baseten、Cursor、DataCrunch、Etched、Hyperbolic、科大讯飞(iFlytek)、Jam & Tea Studios、LinkedIn、LMSYS、美团(Meituan)、Nebius、Novita AI、NVIDIA、RunPod、斯坦福大学(Stanford)、加州大学伯克利分校(UC Berkeley)、加州大学洛杉矶分校(UCLA)、xAI 和零一万物(01.AI)。

结论
我们很高兴欢迎 SGLang 加入 PyTorch 生态系统。SGLang 加速了大语言模型和视觉语言模型的服务效率,并已被行业广泛采用,为 Grok 和 DeepSeek 等前沿模型的大规模在线服务提供了强大动力。
我们诚邀你探索 SGLang GitHub 仓库,加入 Slack 社区,如有咨询或合作意向,请联系 contact@sglang.ai。让我们共同努力,让强大的 AI 模型普惠大众。