vLLM 是一个开源库,用于实现快速、易用的 LLM 推理和服务。它利用 PagedAttention、分块预填充、多 LoRA 和自动前缀缓存等创新技术,优化了数百种语言模型在各种数据中心硬件(包括 NVIDIA 和 AMD GPU、Google TPU、AWS Trainium、Intel CPU)上的性能。它旨在通过与 OpenAI 兼容的服务器和离线批量推理来处理大规模生产流量,并可扩展到多节点推理。作为一个社区驱动的项目,vLLM 与基础模型实验室、硬件供应商和人工智能基础设施公司合作,共同开发前沿功能。
加州大学伯克利分校于 2024 年 7 月将 vLLM 贡献给了 Linux 基金会。