2025 年 8 月 2 日,一场备受瞩目的大模型推理盛会——vLLM 北京见面会在腾讯北京总部成功举办。260 多名开发者、工程师和行业专家齐聚一堂,共同见证 vLLM 生态系统的蓬勃发展及其在实际应用中的强大能力。
本次见面会内容丰富。来自 vLLM 核心团队以及腾讯、华为、蚂蚁集团、字节跳动、月之暗面和小米等领先科技公司的专家们分享了前沿实践和突破性进展。他们的演讲清晰而深入地展示了 vLLM 的核心优势:效率、灵活性和可扩展性。

见面会亮点回顾
1. vLLM 概览及最新进展

vLLM 核心维护者游凯超全面回顾了项目的发展历程,重点介绍了其核心技术和最新进展。他展示了 vLLM 在大规模分布式推理、多模态支持、更精细的调度策略和可扩展性方面的突破。他还概述了未来的发展路线图,重点关注极致性能优化、更广泛的硬件支持和更丰富的生态系统工具链,以深度技术探讨开启了本次活动。
2. vLLM 的 PD 解耦:腾讯推理框架的实践与探索
腾讯专家张超分享了一个基于 vLLM 构建的深度定制的 PD(Prefill-Decode)解耦框架。通过解耦计算关键路径,该解决方案显著提高了推理效率。它已在多个腾讯业务场景中大规模部署,为高并发大模型服务提供了可复用、企业级的推理框架。
3. vLLM Ascend:昇腾在大规模分布式推理和强化学习中的实践

vLLM Ascend 项目团队的专家王西元和文杰分享了他们将 vLLM 适配到昇腾 AI 硬件平台的深入工作。他们首先介绍了 vLLM Ascend 项目在过去几个月取得的最新成果,包括在功能支持、版本发布、软件质量和推理性能方面的重大改进。

随后,他们展示了如何利用昇腾芯片的独特能力来优化 vLLM 以实现大规模分布式推理,并以 DeepSeek 大规模 EP 场景作为案例研究。得益于 vLLM 强大的跨平台适应性,vLLM Ascend 为在昇腾硬件上部署大模型提供了高效的解决方案。
4. 性能提升 10 倍:DeepSeek 推理的关键优化路径


蚂蚁集团基础设施工程师陈文刚和郑守建深入探讨了将 DeepSeek 推理性能提升 10 倍的关键优化策略。他们详细介绍了其方法,从 GPU 内存优化策略到延迟降低技术,从单节点多模型部署实践到 PD(Prefill-Decode)解耦架构的应用。本次演讲提供了一份非常实用的性能调优指南,为社区提供了宝贵的见解。
5. AIBrix v0.4.0 预览:更高效、更经济的大规模推理控制平面

字节跳动 GPU 基础设施工程师谭建南基于字节跳动大量的在线工作负载实践分享了见解,深入探讨了 AIBrix 如何解决大规模模型推理中平衡效率和成本的核心挑战。他强调了 AIBrix 与高性能 vLLM 推理引擎之间的紧密集成,这不仅提高了推理效率,还显著降低了资源成本,为行业提供了一种创新且实用的方法来高效部署大模型服务。
6. Kimi K2 训练和推理最佳实践

月之暗面的何蔚然分享了 Kimi K2 模型在严格 SLO 要求下运行的实践经验,平衡了高并发在线推理和强化学习 (RL) 训练需求。他重点介绍了针对不同硬件资源和工作负载限制进行优化的协调架构和关键部署策略。
7. 通过点对点 NCCL 在 vLLM 中实现原生 PD 解耦

小米 AI 基础设施工程师邓中华深入介绍了使用点对点 NCCL 通信实现的原生 PD(Prefill-Decode)解耦解决方案。他详细解释了 vLLM 中这种架构的设计原理和关键突破。在实际部署案例的支持下,他详细阐述了所实现的显著性能提升,为 vLLM 开源生态系统内的协作提供了宝贵见解。
随着核心功能的不断增强、硬件生态系统的持续扩展以及控制平面和部署解决方案的日益成熟,vLLM 正在成为推动大模型实际应用并赋能无数行业的坚实基础。我们期待着下次聚会,共同见证 vLLM 生态系统更加辉煌的成长!
