博客社区

vLLM 北京见面会:推进大规模 LLM 部署

作者: 2025年8月7日2025年9月4日暂无评论

2025 年 8 月 2 日,腾讯北京总部举办了一场大模型推理领域的盛会——vLLM 北京聚会(vLLM Beijing Meetup)。共有 260 名开发者、工程师和行业专家齐聚一堂,共同见证了 vLLM 生态系统的飞速发展及其在实际应用中的强大实力。

此次聚会内容极其丰富。来自 vLLM 核心团队的专家,以及腾讯、华为、蚂蚁集团、字节跳动、月之暗面(Moonshot AI)和小米等领先科技公司的代表分享了前沿实践与突破性进展。他们的演讲深入浅出地展示了 vLLM 的核心优势:高效性、灵活性和可扩展性。

聚会亮点

1. vLLM 概览与最新发展

vLLM 核心维护者尤开超(KaiChao You)全面回顾了该项目的发展历程,重点介绍了其核心技术及最新进展。他展示了 vLLM 在大规模分布式推理、多模态支持、更精细的调度策略以及扩展性方面的突破,并概述了未来路线图——重点在于极限性能优化、更广泛的硬件支持以及更丰富的生态工具链,为活动开启了深刻的技术篇章。

2. vLLM 的 PD 分离:腾讯推理框架中的实践与探索

 

腾讯专家张超(Chao Zhang)分享了构建于 vLLM 之上的深度定制化 PD(Prefill-Decode,预填充-解码)分离框架。通过解耦计算关键路径,该方案显著提升了推理效率。目前该方案已在腾讯多个业务场景中规模化部署,为高并发大模型服务提供了一种可复用的企业级推理架构。

3. vLLM Ascend:昇腾在大规模分布式推理与强化学习中的实践

vLLM Ascend 项目组专家王希远(Xiyuan Wang)和温杰(Jie Wen)分享了他们将 vLLM 适配到昇腾(Ascend)AI 硬件平台的深度工作。他们首先介绍了 vLLM Ascend 项目过去几个月取得的成就,包括在功能支持、版本发布、软件质量和推理性能方面的重大改进。

随后,他们以 DeepSeek 大规模 EP 场景为例,演示了如何利用昇腾芯片的独特能力优化 vLLM 以实现大规模分布式推理。得益于 vLLM 强大的跨平台适配能力,vLLM Ascend 为在昇腾硬件上部署大模型提供了高效的解决方案。

4. 性能提升 10 倍:DeepSeek 推理的关键优化路径

蚂蚁集团基础设施团队的工程师陈文刚(Wengang Chen)和郑守剑(Shoujian Zheng)深入剖析了将 DeepSeek 推理性能提升 10 倍的关键优化策略。他们详细拆解了从 GPU 显存优化策略到延迟降低技术,从单机多模型部署实践到 PD 分离架构应用的全过程。此次演讲是一份极具实战意义的性能调优指南,为社区提供了宝贵的见解。

5. AIBrix v0.4.0 预览:更高效、更具成本效益的大规模推理控制平面

字节跳动 GPU 基础设施工程师谭建南(Jiannan Tan)基于字节跳动大规模在线负载的丰富实践,深入探讨了 AIBrix 如何解决大规模模型推理中平衡效率与成本的核心挑战。他强调了 AIBrix 与高性能 vLLM 推理引擎之间的紧密集成,这不仅提高了推理效率,还显著降低了资源成本,为行业高效部署大模型服务提供了一种创新且实用的方法。

6. Kimi K2 训练与推理的最佳实践

月之暗面(Moonshot AI)的贺炜然(Weiran He)分享了 Kimi K2 模型在严格 SLO(服务等级目标)要求下运行的实战经验,特别是在平衡高并发在线推理与强化学习(RL)训练需求方面。他重点介绍了针对不同硬件资源和负载限制而优化的协调架构及关键部署策略。

7. 基于点对点 NCCL 的 vLLM 原生 PD 分离实现

小米 AI 基础设施工程师邓中华(Zhonghua Deng)深入介绍了使用点对点(Point-to-Point)NCCL 通信实现的 vLLM 原生 PD(预填充-解码)分离方案。他详尽解释了该架构在 vLLM 中的设计原理与关键突破,并结合实际部署案例详细说明了所取得的显著性能提升,为 vLLM 开源生态内的协作提供了深刻启示。

随着核心功能的不断增强、硬件生态的持续扩张,以及控制平面和部署方案的日益成熟,vLLM 正成为推动大模型落地并赋能各行各业的坚实基础。我们期待在下一次聚会中,见证 vLLM 生态系统更加耀眼的成长!