2025 年 8 月 2 日,一场大模型推理领域的盛会在腾讯北京总部举行——vLLM 北京 Meetup。共计 260 名开发者、工程师和行业专家齐聚一堂,共同见证 vLLM 生态的快速成长及其在实际应用中的强大能力。
本次 Meetup 内容干货满满。来自 vLLM 核心团队的专家,以及腾讯、华为、蚂蚁集团、字节跳动、月之暗面和小米等顶尖科技公司的专家,分享了前沿实践和突破性进展。他们的演讲清晰而深刻地展示了 vLLM 的核心优势:高效、灵活和可扩展。
Meetup 亮点
1. vLLM 概览与最新进展
vLLM 核心维护者游凯超全面回顾了项目的发展历程,重点介绍了其核心技术和最新进展。他展示了 vLLM 在大规模分布式推理、多模态支持、更精细的调度策略以及可扩展性方面的突破。他还概述了未来的路线图,重点关注极致性能优化、更广泛的硬件支持和更丰富的生态工具链,以一场深入的技术分享拉开了活动的序幕。
2. vLLM 的 PD 存算分离:腾讯推理框架的实践与探索
来自腾讯的专家张超分享了一个基于 vLLM 深度定制的 PD(Prefill-Decode)存算分离框架。通过解耦计算关键路径,该方案显著提升了推理效率。目前,它已在腾讯多个业务场景中规模化部署,为高并发大模型服务提供了一个可复用的企业级推理框架。
3. vLLM Ascend:昇腾在大规模分布式推理与强化学习中的实践
来自 vLLM Ascend 项目团队的专家王希元和温杰分享了他们将 vLLM 适配到昇腾 AI 硬件平台的深度工作。他们首先介绍了 vLLM Ascend 项目在过去几个月取得的最新成果——包括在功能支持、版本发布、软件质量和推理性能方面的重大改进。
接着,他们以 DeepSeek 大规模 EP 场景为例,演示了如何利用昇腾芯片的独特能力来优化 vLLM 的大规模分布式推理。得益于 vLLM 强大的跨平台适应性,vLLM Ascend 为在昇腾硬件上部署大模型提供了高效的解决方案。
4. 性能飞跃 10 倍:DeepSeek 推理的关键优化路径
来自蚂蚁集团基础架构团队的工程师陈文刚和郑守建深入探讨了将 DeepSeek 推理性能提升 10 倍的关键优化策略。他们详细剖析了其方法,从 GPU 显存优化策略到延迟降低技术,从单节点多模型部署实践到 PD(Prefill-Decode)存算分离架构的应用。这次演讲堪称一份极具实践性的性能调优指南,为社区提供了宝贵的见解。
5. AIBrix v0.4.0 预览:更高效、更经济的大规模推理控制平面
字节跳动的 GPU Infra 工程师谭建楠基于字节跳动广泛的线上工作负载实践,分享了深入见解,深入剖析了 AIBrix 如何解决大规模模型推理中平衡效率与成本的核心挑战。他强调了 AIBrix 与高性能 vLLM 推理引擎的紧密集成,这不仅提高了推理效率,还显著降低了资源成本——为行业提供了一种创新且实用的高效部署大模型服务的方法。
6. Kimi K2 训练与推理最佳实践
来自月之暗面的何维然分享了在严格的 SLO 要求下运行 Kimi K2 模型的实践经验,平衡了高并发在线推理与强化学习(RL)训练的需求。他重点介绍了针对不同硬件资源和工作负载约束而优化的协同架构和关键部署策略。
7. 通过点对点 NCCL 在 vLLM 中实现原生 PD 存算分离
小米的 AI Infra 工程师邓中华深入介绍了使用点对点 NCCL 通信实现的原生 PD(Prefill-Decode)存算分离解决方案。他详尽解释了该架构在 vLLM 内的设计原则和关键突破。以实际部署案例为支撑,他详细说明了所实现的显著性能提升,为 vLLM 开源生态系统内的合作提供了宝贵的见解。
随着核心功能的不断增强、硬件生态的持续扩展以及控制平面和部署方案的日益成熟,vLLM 正在成为推动大模型实际应用、赋能千行百业的坚实基础。我们期待下一次相聚,共同见证 vLLM 生态更加耀眼的成长!