我们激动地宣布,SGLang 项目已集成到 PyTorch 生态系统中!此次集成确保 SGLang 与 PyTorch 的标准和实践保持一致,为开发者提供了一个可靠且有社区支持的框架,用于快速灵活地为 LLMs 提供推理服务。
要查看 PyTorch 生态系统,请访问 PyTorch Landscape,并了解项目如何加入 PyTorch 生态系统的更多信息。
关于 SGLang
SGLang 是一个用于大型语言模型和视觉语言模型的高速推理服务引擎。通过协同设计后端运行时和前端语言,它使得与模型的交互更快、更可控。
其核心功能包括
- 快速后端运行时:通过 RadixAttention 实现前缀缓存、零开销 CPU 调度器、连续批处理、令牌注意力(Paged Attention)、推测解码、张量并行、分块预填充、结构化输出和量化(FP8/INT4/AWQ/GPTQ),提供高效的推理服务。
- 灵活的前端语言:提供直观的接口用于编程 LLM 应用,包括链式生成调用、高级提示、控制流、多模态输入、并行化和外部交互。
- 广泛的模型支持:支持各种生成模型(如 Llama, Gemma, Mistral, Qwen, DeepSeek, LLaVA 等)、嵌入模型(e5-mistral, gte, mcdse)和奖励模型(Skywork),并易于扩展以集成新模型。
- 活跃的社区:SGLang 是开源的,并受到活跃社区和业界采纳的支持。
SGLang 以其高速而闻名。在推理服务吞吐量和延迟方面,它通常能显著优于其他最先进的框架。您可以从之前的发布博客文章中了解更多关于其底层技术的信息:v0.2 博客、v0.3 博客、v0.4 博客。
SGLang 已被领先的行业公司和前沿研究实验室广泛采用。例如,xAI 使用 SGLang 为其旗舰模型 Grok 3 提供推理服务,该模型目前根据 Chatbot Arena 排行榜是表现最好的模型。Microsoft Azure 使用 SGLang 在 AMD GPU 上为 DeepSeek R1 提供推理服务,该模型目前是最好的开源模型。
为 DeepSeek 模型提供推理服务
您可以使用以下命令轻松启动 Docker 容器来为 DeepSeek 模型提供推理服务
# Pull the latest image
docker pull lmsysorg/sglang:latest
# Launch a server
docker run --gpus all --shm-size 32g -p 30000:30000 -v ~/.cache/huggingface:/root/.cache/huggingface --ipc=host --network=host --privileged lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code --port 30000
然后,您可以使用兼容 OpenAI 的 API 查询服务器
import openai
client = openai.Client(base_url=f"http://127.0.0.1:30000/v1", api_key="None")
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V3",
messages=[
{"role": "user", "content": "List 3 countries and their capitals."},
],
temperature=0,
max_tokens=64,
)
上面的服务器启动命令适用于 8xH200。您可以访问 https://docs.sglang.ai/references/deepseek.html 查找其他硬件(MI300X, H100, A100, H20, L40S)的详细说明。
SGLang 集成了针对 DeepSeek 的特定优化,例如 MLA 吞吐量优化、MLA 优化内核、数据并行注意力、多令牌预测和 DeepGemm,使其成为包括 AMD、NVIDIA 和许多云提供商在内的数十家公司为 DeepSeek 模型提供推理服务的首选。该团队正积极按照下方的 2025 年上半年路线图集成更多优化。
为 Llama 模型提供推理服务
类似地,您可以使用以下命令启动 Llama 3.1 文本模型的服务器
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct
或使用以下命令启动 Llama 3.2 多模态模型的服务器
python3 -m sglang.launch_server --model-path meta-llama/Llama-3.2-11B-Vision-Instruct --chat-template=llama_3_vision
路线图
今年,SGLang 团队将继续突破系统效率的极限。您可以在此处找到 2025 年上半年的路线图。重点是
- 类似于 DeepSeek 推理系统的面向吞吐量的大规模部署
- 长上下文优化
- 低延迟推测解码
- 强化学习训练框架集成
- 内核优化
社区
SGLang 已被部署到大规模生产中,每天生成数万亿令牌。它拥有一个活跃的社区,在 GitHub 上有三百多名贡献者。它得到以下机构的支持:AMD, Atlas Cloud, Baseten, Cursor, DataCrunch, Etched, Hyperbolic, iFlytek, Jam & Tea Studios, LinkedIn, LMSYS, Meituan, Nebius, Novita AI, NVIDIA, RunPod, Stanford, UC Berkeley, UCLA, xAI 和 01.AI。
结论
我们很高兴欢迎 SGLang 加入 PyTorch 生态系统。SGLang 加速了大型语言模型和视觉语言模型的推理服务。它被业界广泛采用,为 Grok 和 DeepSeek 等前沿模型的大规模在线推理服务提供支持。
我们邀请您探索 SGLang GitHub 仓库,加入 Slack 社区,并通过 contact@sglang.ai 联系我们进行咨询或寻求合作机会。共同努力,我们可以让每个人都能使用强大的 AI 模型。