
我们很高兴地宣布 vLLM 项目已成为 PyTorch 生态系统项目,并加入了 PyTorch 生态系统大家庭!
有关成为 PyTorch 生态系统项目的更多信息,请参阅 PyTorch 生态系统工具页面。
运行大型语言模型 (LLM) 既耗费资源又复杂,尤其是当这些模型扩展到数千亿个参数时。vLLM 应运而生,它是一款专为 LLM 设计的高吞吐量、内存高效的推理和服务引擎。
vLLM 最初围绕创新的 PagedAttention 算法构建,现已发展成为一个全面的、最先进的推理引擎。一个蓬勃发展的社区也在不断为 vLLM 添加新功能和优化,包括流水线并行、分块预填充、推测解码和解耦服务。
自发布以来,vLLM 获得了广泛关注,在 GitHub 上获得了超过 31,000 颗星——这证明了它的受欢迎程度和蓬勃发展的社区。这个里程碑标志着 vLLM 进入了一个激动人心的新篇章,我们将继续为开发人员和研究人员提供尖端工具,以实现高效和可扩展的 AI 部署。欢迎来到 LLM 推理的新时代!
vLLM 一直与 PyTorch 项目有着紧密的联系。它与 PyTorch 深度集成,将其作为统一接口来支持各种硬件后端。这些包括 NVIDIA GPU、AMD GPU、Google Cloud TPU、Intel GPU、Intel CPU、Intel Gaudi HPU 和 AWS Neuron 等。这种与 PyTorch 的紧密耦合确保了跨不同硬件平台的无缝兼容性和性能优化。
您知道吗,您可以直接通过手机体验 vLLM 的强大功能?在今年的亚马逊 Prime Day 期间,vLLM 在为数百万用户提供闪电般快速响应方面发挥了关键作用。在三个区域,超过 80,000 块 Trainium 和 Inferentia 芯片每分钟处理平均 300 万个 token,同时将首次响应的 P99 延迟保持在 1 秒以内。这意味着当客户打开亚马逊应用程序并与 Rufus 聊天时,他们正在与 vLLM 无缝交互!
vLLM 还与领先的模型供应商紧密合作,以确保支持流行模型。这包括与 Meta LLAMA、Mistral、QWen 和 DeepSeek 模型以及许多其他模型的紧密集成。一个特别令人难忘的里程碑是 LLAMA 3.1 (405B) 的发布。作为发布合作伙伴,vLLM 是第一个能够运行这种超大型模型的项目,展示了 vLLM 处理最复杂和资源密集型语言模型的能力。
要安装 vLLM,只需运行
pip install vllm
vLLM 专为研究人员和生产级服务而设计。
要将 vLLM 作为与 OpenAI API 兼容的服务器运行,只需使用 Huggingface 模型 ID
vllm serve meta-llama/Llama-3.1-8B
要将 vLLM 作为一个简单函数运行
from vllm import LLM, SamplingParams
# Sample prompts.
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
# Create an LLM.
llm = LLM(model="meta-llama/Llama-3.1-8B")
# Generate texts from the prompts. The output is a list of RequestOutput objects
# that contain the prompt, generated text, and other information.
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
开源创新是 vLLM 基因的一部分。它诞生于伯克利的一个学术项目,继承了其他开创性开源项目的遗产,例如在 1980 年代彻底改变操作系统的 BSD。来自同一组织的其他创新包括 Apache Spark 和 Ray,它们现在是大数据和 AI 系统的标准。在生成式 AI 时代,vLLM 作为一个平台,致力于普及 AI 推理。
vLLM 团队坚定不移地致力于将项目保持“社区所有、社区管理、社区服务”。协作和包容是我们一切工作的核心。
如果您有合作请求或疑问,请随时通过 vllm-questions@lists.berkeley.edu 与我们联系。要加入活跃且不断壮大的 vLLM 社区,请访问我们的 GitHub 仓库或在 vLLM Slack 上与我们联系。携手合作,我们可以突破 AI 创新的界限,让所有人都能使用 AI。