跳转到主要内容
公告

PyTorch 基金会欢迎 vLLM 成为托管项目

作者: 2025 年 5 月 7 日暂无评论

PyTorch Foundation Welcomes vLLM

PyTorch 基金会热烈欢迎 vLLM 成为其托管项目。vLLM 由加州大学伯克利分校贡献,是一款专为大语言模型(LLM)设计的高吞吐量、高内存效率的推理和服务引擎。vLLM 与 PyTorch 项目一直有着紧密的联系。它深度集成于 PyTorch,并将其作为统一接口,以支持包括 NVIDIA GPU、AMD GPU、Google Cloud TPU、Intel GPU、Intel CPU、Intel Gaudi HPU 和 AWS Neuron 在内的多种硬件后端。这种与 PyTorch 的紧密结合,确保了在不同硬件平台上的无缝兼容性和性能优化。

PyTorch 基金会最近宣布扩展为伞形基金会,以加速人工智能创新,并欣然欢迎 vLLM 成为首批新项目之一。基金会托管项目是指归属于该伞形结构下的项目,它们在 PyTorch 基金会中立、透明的治理模式下得到正式管理。

什么是 vLLM?

运行大语言模型(LLM)既耗费资源又十分复杂,尤其是当模型规模扩展到数千亿参数时。这正是 vLLM 发挥作用的地方。vLLM 最初围绕创新的 PagedAttention 算法构建,现已发展成为一个全面的、最先进的推理引擎。一个蓬勃发展的社区也在不断为 vLLM 添加新功能和优化,包括流水线并行、分块预填充、推测解码和解耦式服务。

自发布以来,vLLM 获得了广泛关注,在 GitHub 上获得了超过 46,500 颗星标和 1000 多名贡献者——这证明了其受欢迎程度和繁荣的社区。这一里程碑标志着 vLLM 开启了激动人心的新篇章,我们将继续为开发者和研究人员提供尖端工具,以实现高效、可扩展的人工智能部署。欢迎来到 LLM 推理的新时代!

vLLM 的主要特性包括

  • 广泛的模型支持:支持超过 100 种 LLM 架构,具备图像和视频的多模态能力,同时支持稀疏注意力、Mamba、BERT、Whisper、嵌入和分类模型等专用架构。
  • 全面的硬件兼容性:可在包括 Blackwell 在内的 NVIDIA GPU 上运行,并官方支持 AMD、Google TPU、AWS Neuron、Intel CPU/XPU/HPU 和 ARM。IBM Spyre 和华为昇腾等第三方加速器可通过我们的插件系统轻松集成。
  • 高度可扩展:支持自定义模型实现、硬件插件、torch.compile 优化和可配置的调度策略,以满足您的特定需求。
  • 为响应速度优化:通过推测解码、量化、前缀缓存和 CUDA 图加速,实现最低延迟。
  • 为最大化吞吐量而设计:通过张量/流水线并行和专用内核实现峰值性能。
  • 无缝的 RLHF 集成:为基于人类反馈的强化学习和常见的后训练框架提供一流支持。
  • 企业级分布式推理:通过 KV 缓存卸载、智能路由和预填充-解码解耦,实现集群范围的扩展。
  • 生产级稳定:提供企业级安全性、全面的可观测性和经过实战检验的运行可靠性。

共同加速开源人工智能

通过成为 PyTorch 基金会的项目,vLLM 将与 PyTorch 团队在功能开发上紧密合作。例如:

  • vLLM 将确保代码在 Torch nightly 版本上运行,而 PyTorch 团队将进行监控以确保所有测试通过。
  • PyTorch 团队正在为 vLLM 增强 torch.compile 和 FlexAttention 的支持。
  • 与 TorchTune、TorchAO 和 FBGEMM 等原生库进行紧密合作与支持。

这种合作关系为 vLLM 和 PyTorch 核心都带来了显著的互利优势。vLLM 获得了基金会这一坚定的管理者,确保了长期的代码库维护、生产稳定性和透明的社区治理。同时,PyTorch 也将受益于 vLLM,因为它能极大地扩展 PyTorch 在各种加速器平台上的应用,并推动前沿功能的创新,从而增强整个生态系统。