5月17日,PyTorch Meetup 在杭州成功举办,吸引了来自华为、腾讯、蚂蚁集团、字节跳动等公司的近 60 位开发者和行业专家参加。本次活动聚焦 PyTorch 生态发展、AI 加速技术及行业实践,通过主题演讲和技术分享,与参会者进行了深入探讨,为行业交流与合作提供了宝贵的平台。

会议亮点
PyTorch 社区最新动态与生态展望
PyTorch 技术咨询委员会(TAC)成员蒋亦鲲分享了 PyTorch 社区的最新进展。内容涵盖 PyTorch 的总体进度、PyTorch 基金会扩展为伞形基金会、大使计划以及 PyTorch 大会的规划。他强调,PyTorch 如何通过技术迭代、生态扩展和全球协作,持续推动 AI 开源技术的创新与落地。他号召广大开发者积极参与社区建设,共同塑造 AI 开源生态的未来。

Torchair:面向昇腾 NPU 优化的 torch.compile 后端
华为高级工程师彭雪分享了关于昇腾 NPU 图模式优化的技术实践。他介绍了 Torchair 的两种模式——Reduce-overhead 和 Max-autotune,并详细阐述了在内存管理、动态形状(dynamic shapes)、多流并行(multi-stream parallelism)和编译时缓存方面的深度优化。这些改进旨在提升模型训练和推理性能的同时,保持良好的易用性。

昇腾上的 PyTorch 生态
华为软件工程师纪元昊讨论了昇腾 NPU 对 PyTorch 生态项目的支持。以模型训练、微调和推理为重点,他以 TorchTitan、TorchTune 和 vLLM 为案例进行了分析,解释了它们的核心特性及在昇腾上的适配策略,为在昇腾硬件上部署 PyTorch 项目提供了实践指导。

腾讯基于 vLLM 的生产级 Prefill/Decode 分离技术
腾讯高级工程师张超介绍了在大模型推理中实现 Prefill/Decode(PD)分离的实践。该技术将计算密集型的预填充(Prefill)阶段与显存密集型的解码(Decode)阶段解耦,显著提升了系统吞吐量和资源利用率。他的演讲涵盖了 KV Cache 传输优化、智能负载均衡和多轮对话缓存等关键技术实现。在同构 GPU 以及昇腾 A2 + H20 等异构环境下的真实部署表明,性能提升了 20%–50%。腾讯还针对 CPU、GPU 优化了 vLLM 框架,并利用流水线分解、低精度 KV Cache 和图编译器,增强了跨硬件平台的适配性和性能。

强化学习(RL)加速关键技术与训练实践
华为高级工程师潘晨屹分享了昇腾在强化学习及生态开发方面的突破。针对 RL 系统中资源利用率低的问题,他介绍了训练推理同卡方案,实现了任务间的高效切换。该方法不仅节省了 50% 的计算资源,还将单卡吞吐量翻倍,并将推理内存可用性提高了 80%。为丰富技术生态,昇腾还推出了流式数据引擎 TransferDock,通过动态负载均衡策略,使任务效率较传统缓存机制提升了 10% 以上。
在框架层面,MindSpeed-RL 结合了 MindSpeed 训练后端与 vLLM 推理引擎,在支持动态权重切分和集群资源分时复用的同时,保持了与主流开源生态的兼容。使用 Qwen2.5-32B 模型的基准测试显示,该方案在 MATH500 等评估中表现优于 SimpleRL-Zoo 基准,展现了其技术领先性。

Ray 在蚂蚁集团 AI Infra 生态中的实践与探索
蚂蚁集团高级技术专家、Ant Ray 负责人朱森林分享了 Ray 在蚂蚁 AI Infra 生态中的实践与探索。他概述了 Ray 的架构设计与编程范式。随着时间推移,Ray 已演进为 AI 系统的关键基础设施,支撑着训练、推理、超参数调优和强化学习等任务。
自 2017 年起,蚂蚁集团持续投入 Ray,目前已支持 200 万核规模的应用。蚂蚁还向社区贡献了多租户支持和 Flow Insight 可视化调试工具等关键特性。其中,Flow Insight 缓解了复杂 AI 系统中的“黑盒”问题,显著提升了大规模环境下的可观测性和部署效率。

PyTorch 生态加速器开发的挑战与标准化
来自华为的社区开发者宗泽盛对 PyTorch 生态中加速器开发面临的挑战、解决方案及案例进行了系统性概述。集成 out-of-tree 硬件的开发者常面临版本兼容性问题和缺乏标准化质量基准,导致难以量化对新设备的支持。2025 年初,PyTorch 社区成立了一个新的探索小组专门解决这些难题。
主要改进包括:建立基于公共仓库 pytorch-fdn/oota 的标准化测试框架,用于日常插件测试;开发 OpenReg 模块以模拟后端行为并进行测试用例验证;优化 PrivateUse1 插件机制以降低集成复杂度;支持自动插件加载以简化设备接入;完善 torch.accelerator 设备无关 API 以实现更广泛的兼容性。

英特尔社区开发者王川奇随后通过案例介绍了如何使用 Intel Gaudi 集成和运行 CI 基础设施。他描述了如何利用从代码编译、单元测试到 TorchBench 自动化基准测试的 CI 流程,确保后端集成质量。他同时提到,未来计划缩短测试时间、明确测试项要求并定义质量标准,以进一步提升生态兼容性和开发效率。

本次 PyTorch Meetup 为开发者搭建了一座深度技术交流的桥梁,展示了 PyTorch 生态在 AI 前沿领域的蓬勃活力。通过多元化的视角,与会者共同勾勒出开源协作如何驱动技术进步的蓝图。我们期待更多开发者加入这场开放、繁荣的创新浪潮,在每一次交流中碰撞出智慧时代的火花。
