vLLM 是一个开源库,用于快速、易于使用的 LLM 推理和服务。它通过 PagedAttention、分块预填充、多 LoRA 和自动前缀缓存等创新技术,优化了跨不同数据中心硬件(NVIDIA 和 AMD GPU、Google TPU、AWS Trainium、Intel CPU)的数百种语言模型。它旨在通过兼容 OpenAI 的服务器和离线批量推理来服务大规模生产流量,并可扩展到多节点推理。作为一个社区驱动的项目,vLLM 与基础模型实验室、硬件供应商和人工智能基础设施公司合作开发尖端功能。
加州大学伯克利分校于 2024 年 7 月将 vLLM 贡献给 Linux 基金会。