公告社区

vLLM 加入 PyTorch 生态系统:为每个人提供简单、快速、经济的 LLM 服务

作者: 2024年12月9日2025年5月3日暂无评论
vllm logo

我们非常高兴地宣布,vLLM 项目已成为 PyTorch 生态系统的一员,正式加入 PyTorch 大家庭!

关于“成为 PyTorch 生态项目”意味着什么的更多信息,请参阅 PyTorch 生态工具页面

运行大语言模型(LLM)既耗费资源又复杂,尤其是当模型规模达到数千亿参数时。这正是 vLLM 的用武之地——它是一款专为 LLM 设计的高吞吐量、内存高效的推理和服务引擎。

vLLM 最初围绕创新的 PagedAttention 算法构建,现已发展成为一个全面且处于行业领先地位的推理引擎。活跃的社区也在不断为 vLLM 增加新特性和优化,包括流水线并行(pipeline parallelism)、分块预填充(chunked prefill)、投机采样(speculative decoding)和存算分离服务(disaggregated serving)。

自发布以来,vLLM 收到了广泛关注,在 GitHub 上获得了超过 31,000 个星标,这证明了它的受欢迎程度和社区的活跃度。这一里程碑标志着 vLLM 开启了激动人心的新篇章,我们将继续为开发者和研究人员提供前沿工具,以实现高效且可扩展的 AI 部署。欢迎进入 LLM 推理的新时代!

vLLM 与 PyTorch 项目一直有着深厚的联系。它深度集成于 PyTorch 中,利用 PyTorch 作为统一接口来支持广泛的硬件后端,包括 NVIDIA GPU、AMD GPU、Google Cloud TPU、Intel GPU、Intel CPU、Intel Gaudi HPU 和 AWS Neuron 等。这种与 PyTorch 的紧密结合,确保了在不同硬件平台上的无缝兼容性和性能优化。

你知道吗?你甚至可以在手机上体验 vLLM 的强大功能。在今年的亚马逊 Prime Day 期间,vLLM 在为数百万用户提供闪电般快速的响应方面发挥了关键作用。在三个区域中,超过 80,000 颗 Trainium 和 Inferentia 芯片每分钟处理平均 300 万个 Token,同时确保了首字响应的 P99 延迟低于 1 秒。这意味着当客户打开亚马逊 App 与 Rufus 聊天时,他们实际上是在无缝体验 vLLM 的强大动力!

vLLM 还与领先的模型厂商密切合作,以确保对热门模型的支持。这包括与 Meta LLAMA、Mistral、QWen 和 DeepSeek 模型及其他众多模型的紧密集成。其中一个令人难忘的里程碑是 LLAMA 3.1 (405B) 的发布。作为首发合作伙伴,vLLM 是第一个支持运行该超大规模模型的引擎,展示了 vLLM 处理最复杂、最耗资源语言模型的能力。

要安装 vLLM,只需运行

pip install vllm

vLLM 专为研究人员和生产级服务而设计。

要将 vLLM 作为与 OpenAI API 兼容的服务器运行,只需使用 Huggingface 模型 ID

vllm serve meta-llama/Llama-3.1-8B

要将 vLLM 作为简单的函数运行

from vllm import LLM, SamplingParams

# Sample prompts.
prompts = [
   "Hello, my name is",
   "The president of the United States is",
   "The capital of France is",
   "The future of AI is",
]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

# Create an LLM.
llm = LLM(model="meta-llama/Llama-3.1-8B")
# Generate texts from the prompts. The output is a list of RequestOutput objects
# that contain the prompt, generated text, and other information.
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
   prompt = output.prompt
   generated_text = output.outputs[0].text
   print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

开源创新是 vLLM 的基因。它源自伯克利的一个学术项目,遵循了 BSD 等先驱开源倡议的传统,后者曾在 20 世纪 80 年代彻底改变了操作系统。来自同一机构的其他创新项目还包括 Apache SparkRay,它们现已成为大数据和 AI 系统的标准。在生成式 AI 时代,vLLM 作为一个致力于使 AI 推理民主化的平台发挥着重要作用。

vLLM 团队始终坚定地履行使命,保持项目“源于社区,属于社区,服务社区”。协作和包容是我们一切工作的核心。

如果您有合作请求或咨询,请随时发送邮件至 vllm-questions@lists.berkeley.edu。要加入活跃且不断壮大的 vLLM 社区,请查看我们的 GitHub 仓库,或通过 vLLM Slack 与我们联系。让我们携手并进,共同拓展 AI 创新的边界,让所有人都能从中受益。