作者:vLLM 团队

vllm logo

我们很高兴地宣布,vLLM 项目已成为 PyTorch 生态系统项目,并加入了 PyTorch 生态系统大家庭!

有关成为 PyTorch 生态系统项目的更多信息,请参阅PyTorch 生态系统工具页面

运行大型语言模型 (LLM) 既需要大量资源又很复杂,尤其是在这些模型扩展到数千亿参数时。这就是 vLLM 的用武之地——一款专为 LLM 设计的高吞吐量、内存效率高的推理和服务引擎。

vLLM 最初围绕创新的PagedAttention 算法构建,现已发展成为一个全面、最先进的推理引擎。一个蓬勃发展的社区也在不断向 vLLM 添加新功能和优化,包括流水线并行、分块预填充、推测解码和解耦服务。

自发布以来,vLLM 获得了广泛关注,在 GitHub 上斩获超过 31,000 颗星——这证明了它的受欢迎程度和蓬勃发展的社区。这一里程碑标志着 vLLM 进入激动人心的新篇章,我们将继续通过尖端工具助力开发者和研究人员实现高效且可扩展的 AI 部署。欢迎来到 LLM 推理的新时代!

vLLM 与 PyTorch 项目一直有着紧密的联系。它深度集成到 PyTorch 中,利用其作为统一接口支持广泛的硬件后端,包括 NVIDIA GPU、AMD GPU、Google Cloud TPU、Intel GPU、Intel CPU、Intel Gaudi HPU 和 AWS Neuron 等等。这种与 PyTorch 的紧密结合确保了在各种硬件平台上的无缝兼容性和性能优化。

您知道可以直接通过手机体验 vLLM 的强大功能吗?在今年的亚马逊 Prime Day 期间,vLLM 在向数百万用户提供闪电般快速的响应方面发挥了关键作用。在三个区域,超过 80,000 个 Trainium 和 Inferentia 芯片每分钟处理平均 300 万个 token,同时保持首次响应的 P99 延迟低于 1 秒。这意味着当客户打开亚马逊应用并与 Rufus 聊天时,他们正在无缝地与正在运行的 vLLM 进行交互!

vLLM 还与领先的模型供应商紧密合作,以确保对流行模型的支持。这包括与 Meta LLAMA、Mistral、QWen 和 DeepSeek 模型以及许多其他模型的紧密集成。一个特别值得纪念的里程碑是 LLAMA 3.1 (405B) 的发布。作为首发合作伙伴,vLLM 是第一个支持运行这一超大型模型的,展示了 vLLM 处理最复杂和资源密集型语言模型的能力。

安装 vLLM,只需运行

pip install vllm

vLLM 专为研究人员和生产级服务而设计。

要将 vLLM 作为与 OpenAI API 兼容的服务器运行,只需使用 Huggingface 模型 ID

vllm serve meta-llama/Llama-3.1-8B

要将 vLLM 作为简单函数运行

from vllm import LLM, SamplingParams

# Sample prompts.
prompts = [
   "Hello, my name is",
   "The president of the United States is",
   "The capital of France is",
   "The future of AI is",
]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

# Create an LLM.
llm = LLM(model="meta-llama/Llama-3.1-8B")
# Generate texts from the prompts. The output is a list of RequestOutput objects
# that contain the prompt, generated text, and other information.
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
   prompt = output.prompt
   generated_text = output.outputs[0].text
   print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

开源创新是 vLLM DNA 的一部分。它诞生于伯克利的一个学术项目,继承了其他开创性开源项目的遗产,例如在 20 世纪 80 年代彻底改变操作系统的 BSD。来自同一机构的其他创新包括 Apache SparkRay,它们现在是大数据和 AI 系统的标准。在生成式 AI 时代,vLLM 作为一个致力于民主化 AI 推理的平台。

vLLM 团队坚定不移地履行其使命,即保持项目“来自社区、由社区创造、服务社区”。协作和包容是我们所做一切的核心。

如果您有合作请求或咨询,请随时通过 vllm-questions@lists.berkeley.edu 与我们联系。要加入活跃且不断壮大的 vLLM 社区,请访问我们的 GitHub 仓库 或在 vLLM Slack 上与我们联系。我们可以一起推动 AI 创新的边界,让每个人都能使用它。