
我们非常高兴地宣布,vLLM 项目已成为 PyTorch 生态系统项目,并加入了 PyTorch 生态系统大家庭!
有关成为 PyTorch 生态系统项目的更多信息,请参阅PyTorch 生态系统工具页面。
运行大型语言模型 (LLM) 既耗费资源又复杂,尤其是在这些模型扩展到数千亿个参数时。vLLM 应运而生——一个专为 LLM 设计的高吞吐量、内存高效的推理和服务引擎。
vLLM 最初围绕创新的分页注意力算法构建,现已发展成为一个全面的、最先进的推理引擎。一个蓬勃发展的社区也在不断为 vLLM 添加新功能和优化,包括流水线并行、分块预填充、推测解码和解耦服务。
自发布以来,vLLM 获得了广泛关注,在 GitHub 上获得了超过 31,000 颗星——这证明了它的受欢迎程度和蓬勃发展的社区。这个里程碑标志着 vLLM 一个激动人心的篇章,我们将继续通过尖端工具为开发人员和研究人员提供高效、可扩展的 AI 部署。欢迎来到 LLM 推理的新时代!
vLLM 始终与 PyTorch 项目有着密切的联系。它深度集成到 PyTorch 中,利用 PyTorch 作为统一接口来支持广泛的硬件后端。其中包括 NVIDIA GPU、AMD GPU、Google Cloud TPU、Intel GPU、Intel CPU、Intel Gaudi HPU 和 AWS Neuron 等。这种与 PyTorch 的紧密耦合确保了跨不同硬件平台的无缝兼容性和性能优化。
你知道吗,你可以直接通过手机体验 vLLM 的强大功能?在今年的亚马逊 Prime Day 期间,vLLM 在向数百万用户提供闪电般的响应方面发挥了关键作用。在三个区域,超过 80,000 个 Trainium 和 Inferentia 芯片每分钟平均处理 300 万个令牌,同时将首次响应的 P99 延迟保持在 1 秒以内。这意味着当客户打开亚马逊应用程序并与 Rufus 聊天时,他们正在无缝地与正在运行的 vLLM 交互!
vLLM 还与领先的模型供应商紧密合作,以确保支持流行模型。这包括与 Meta LLAMA、Mistral、QWen 和 DeepSeek 模型以及许多其他模型的紧密集成。一个特别令人难忘的里程碑是LLAMA 3.1 (405B) 的发布。作为首发合作伙伴,vLLM 率先实现了这个超大型模型的运行,展示了 vLLM 处理最复杂和资源密集型语言模型的能力。
要安装 vLLM,只需运行
pip install vllm
vLLM 专为研究人员和生产级服务而设计。
要将 vLLM 作为与 OpenAI API 兼容的服务器运行,只需使用 Huggingface 模型 ID
vllm serve meta-llama/Llama-3.1-8B
要将 vLLM 作为简单函数运行
from vllm import LLM, SamplingParams
# Sample prompts.
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
# Create an LLM.
llm = LLM(model="meta-llama/Llama-3.1-8B")
# Generate texts from the prompts. The output is a list of RequestOutput objects
# that contain the prompt, generated text, and other information.
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
开源创新是 vLLM DNA 的一部分。它诞生于伯克利的一个学术项目,继承了其他开创性开源倡议的遗产,例如在 1980 年代彻底改变操作系统的 BSD。来自同一组织的其他创新包括Apache Spark和Ray,现在已成为大数据和 AI 系统的标准。在生成式 AI 时代,vLLM 作为致力于普及 AI 推理的平台。
vLLM 团队坚定不移地致力于“由社区、为社区、属于社区”的项目使命。协作和包容性是我们一切工作的核心。
如果您有合作请求或咨询,请随时通过vllm-questions@lists.berkeley.edu联系我们。要加入活跃且不断壮大的 vLLM 社区,请访问我们的GitHub 仓库或通过vLLM Slack与我们联系。我们将共同推动 AI 创新的边界,并使其惠及所有人。