
PyTorch 基金会很高兴欢迎 vLLM 成为 PyTorch 基金会托管项目。vLLM 由加州大学伯克利分校贡献,是一个专为大型语言模型 (LLM) 设计的高吞吐量、内存高效的推理和服务引擎。vLLM 一直与 PyTorch 项目有着紧密的联系。它深度集成到 PyTorch 中,利用 PyTorch 作为统一接口来支持广泛的硬件后端,包括 NVIDIA GPU、AMD GPU、Google Cloud TPU、Intel GPU、Intel CPU、Intel Gaudi HPU 和 AWS Neuron 等。这种与 PyTorch 的紧密耦合确保了在不同硬件平台上的无缝兼容性和性能优化。
PyTorch 基金会最近宣布扩大为伞形基金会以加速 AI 创新,并很高兴欢迎 vLLM 成为首批新项目之一。基金会托管项目是属于该伞形结构下的项目,它们在 PyTorch 基金会中立透明的治理模式下进行官方治理和管理。
什么是 vLLM?
运行大型语言模型 (LLM) 既耗费资源又复杂,尤其是当这些模型扩展到数千亿个参数时。这就是 vLLM 的用武之地。vLLM 最初围绕创新的 PagedAttention 算法构建,现已发展成为一个全面、最先进的推理引擎。一个蓬勃发展的社区也在不断为 vLLM 添加新功能和优化,包括流水线并行、分块预填充、推测解码和解耦服务。
自发布以来,vLLM 获得了广泛关注,在 GitHub 上获得了超过 46,500 颗星和 1000 多名贡献者——这证明了其受欢迎程度和蓬勃发展的社区。这个里程碑标志着 vLLM 进入了一个激动人心的篇章,我们将继续通过尖端工具赋能开发人员和研究人员,实现高效和可扩展的 AI 部署。欢迎来到 LLM 推理的新时代!
vLLM 的主要功能包括:
- 广泛的模型支持:支持 100 多种 LLM 架构,具有图像和视频的多模态功能,同时支持稀疏注意力、Mamba、BERT、Whisper、嵌入和分类模型等专用架构。
- 全面的硬件兼容性:可在 NVIDIA Blackwell 系列 GPU 上运行,并正式支持 AMD、Google TPU、AWS Neuron、Intel CPU/XPU/HPU 和 ARM。IBM Spyre 和华为昇腾等第三方加速器可通过我们的插件系统轻松集成。
- 高度可扩展:支持自定义模型实现、硬件插件、torch.compile 优化以及可配置的调度策略,以满足您的特定需求。
- 针对响应速度优化:通过推测解码、量化、前缀缓存和 CUDA 图加速,提供最小延迟。
- 为最大吞吐量设计:通过张量/流水线并行和专用内核实现峰值性能。
- 无缝 RLHF 集成:提供对人类反馈强化学习和常见后训练框架的一流支持。
- 企业级分布式推理:通过 KV 缓存卸载、智能路由和预填充-解码解耦实现集群范围的扩展。
- 经生产验证:提供企业级安全性、全面的可观测性以及经过实战检验的操作可靠性。
共同加速开源 AI
通过成为 PyTorch 基金会项目,vLLM 将与 PyTorch 团队在功能开发方面进行密切合作。例如:
- vLLM 将确保代码在 Torch nightly 版本上运行,PyTorch 团队将监控以确保所有测试通过。
- PyTorch 团队正在增强对 vLLM 的 torch.compile 和 FlexAttention 支持。
- 与 TorchTune、TorchAO 和 FBGEMM 等原生库进行密切协作和支持。
这种伙伴关系为 vLLM 和 PyTorch 核心带来了显著的互惠优势。vLLM 在基金会中获得了一个忠实的管家,确保了长期的代码库维护、生产稳定性和透明的社区治理。同时,PyTorch 受益于 vLLM 能够大幅扩展 PyTorch 在不同加速器平台上的采用,同时推动尖端功能的创新,从而增强整个生态系统。