vLLM

vLLM 是一个用于大语言模型(LLM)的高吞吐量、内存高效的推理和服务引擎。

vLLM 是一个开源库,旨在实现快速、易用的大语言模型推理与服务。它利用 PagedAttention、分块预填充(chunked prefill)、多 LoRA 以及自动前缀缓存(automatic prefix caching)等创新技术,对各种数据中心硬件(NVIDIA 和 AMD GPU、Google TPU、AWS Trainium、Intel CPU)上的数百种语言模型进行了优化。它专为承载大规模生产流量而设计,提供与 OpenAI 兼容的服务器接口和离线批量推理功能,并可扩展至多节点推理。作为一个社区驱动的项目,vLLM 与基础模型实验室、硬件供应商及人工智能基础设施公司合作,共同开发前沿功能。

加州大学伯克利分校于 2024 年 7 月将 vLLM 捐赠给了 Linux 基金会。