vLLM 是一个开源库,旨在实现快速、易用的大语言模型推理与服务。它利用 PagedAttention、分块预填充(chunked prefill)、多 LoRA 以及自动前缀缓存(automatic prefix caching)等创新技术,对各种数据中心硬件(NVIDIA 和 AMD GPU、Google TPU、AWS Trainium、Intel CPU)上的数百种语言模型进行了优化。它专为承载大规模生产流量而设计,提供与 OpenAI 兼容的服务器接口和离线批量推理功能,并可扩展至多节点推理。作为一个社区驱动的项目,vLLM 与基础模型实验室、硬件供应商及人工智能基础设施公司合作,共同开发前沿功能。
加州大学伯克利分校于 2024 年 7 月将 vLLM 捐赠给了 Linux 基金会。