5 月 17 日,PyTorch 见面会在杭州成功举办,吸引了来自华为、腾讯、蚂蚁集团、字节跳动等公司的近 60 名开发者和行业专家。本次活动聚焦 PyTorch 生态发展、AI 加速技术和行业实践。通过主题演讲和技术分会,与参会者进行了深入探讨,为交流与协作提供了宝贵的平台。

会议亮点
PyTorch 社区最新进展与生态展望
PyTorch 技术咨询委员会 (TAC) 成员 Yikun Jiang 分享了 PyTorch 社区的最新动态。议题包括 PyTorch 的整体进展、PyTorch 基金会扩展为伞形基金会、大使计划以及 PyTorch 大会规划。他强调 PyTorch 如何通过技术迭代、生态扩展和全球协作持续推动 AI 开源技术的创新和实际应用。他呼吁开发者积极参与社区建设,共同塑造 AI 开源生态系统的未来。

Torchair:为昇腾 NPU 优化的 torch.compile 后端
华为高级工程师薛鹏介绍了围绕昇腾 NPU 图模式优化的技术实践。他介绍了 Torchair 的两种模式——Reduce-overhead 和 Max-autotune——并详细阐述了在内存管理、动态形状、多流并行和编译时缓存方面的深度优化。这些改进旨在提高模型训练和推理性能,同时保持易用性。

昇腾上的 PyTorch 生态
华为软件工程师姬远浩讨论了昇腾 NPU 对 PyTorch 生态项目的支持。他以 TorchTitan、TorchTune 和 vLLM 为案例研究,重点介绍了模型训练、微调和推理。他解释了它们的核心功能和昇腾的适配策略,为在昇腾硬件上部署 PyTorch 项目提供了实用指导。

腾讯基于 vLLM 的生产级 Prefill/Decode 解耦
腾讯高级工程师张超介绍了大模型推理中 Prefill/Decode (PD) 分离的实践。该技术将计算密集型预填充阶段与内存密集型解码阶段解耦,显著提高了系统吞吐量和资源利用率。他的演讲涵盖了 KV 缓存传输优化、智能负载均衡和多轮对话缓存等关键技术实现。在同构 GPU 和昇腾 A2 + H20 等异构设置上的实际部署显示,性能提升了 20%–50%。腾讯进一步优化了适用于 CPU、GPU 的 vLLM 框架,并利用流水线分解、低精度 KV 缓存和图编译器来增强跨硬件平台的适应性和性能。

关键强化学习 (RL) 加速技术和训练实践
华为高级工程师潘晨翊分享了昇腾在强化学习和生态发展方面的突破。针对 RL 系统资源利用率低的挑战,他介绍了一种训练-推理协同卡解决方案,可以高效地在两个任务之间切换。这种方法不仅节省了 50% 的计算资源,还使单卡吞吐量翻倍,并将推理内存可用性提高了 80%。为了丰富技术生态,昇腾还推出了 TransferDock,一个流式数据引擎,它采用动态负载均衡策略,与传统缓存机制相比,任务效率提高了 10% 以上。
在框架方面,MindSpeed-RL 将 MindSpeed 训练后端与 vLLM 推理引擎相结合,支持动态权重分区和集群资源时分,同时保持与主流开源生态系统的兼容性。使用 Qwen2.5-32B 模型进行的基准测试显示,该设置在 MATH500 等评估中优于 SimpleRL-Zoo 基线,展示了其技术领先性。

Ray 在蚂蚁集团 AI 基础设施生态系统中的实践与探索
蚂蚁集团高级技术专家、蚂蚁 Ray 负责人朱森林分享了 Ray 在蚂蚁 AI 基础设施生态系统中的实践与探索。他概述了 Ray 的架构设计和编程范式。随着时间的推移,Ray 已发展成为 AI 系统的关键基础设施,支持训练、推理、超参数调优和强化学习。
自 2017 年以来,蚂蚁集团持续投入 Ray,目前已支持 200 万核规模的应用。蚂蚁还为社区贡献了多租户支持和 Flow Insight 可视化调试工具等关键功能。特别是 Flow Insight 缓解了复杂 AI 系统中的“黑箱”问题,显著提高了大规模部署的可观测性和效率。

PyTorch 生态系统加速器开发中的挑战与标准化
来自华为的社区开发者宗泽生系统地概述了 PyTorch 生态系统加速器开发中的挑战、解决方案和案例研究。集成非官方硬件的开发者面临版本兼容性问题和缺乏标准化质量基准,导致难以量化新设备支持。2025 年初,PyTorch 社区成立了一个新的探索小组来解决这些挑战。
主要改进包括:建立使用公共仓库 pytorch-fdn/oota 的标准化测试框架,用于日常插件测试。开发 OpenReg 模块来模拟后端行为并用测试用例进行验证。优化 PrivateUse1 插件机制以降低集成复杂性。支持自动插件加载以简化设备访问。改进 torch.accelerator 设备无关 API 以实现更广泛的兼容性。

英特尔社区开发者王传奇随后介绍了使用英特尔 Gaudi 集成和运行 CI 基础设施的案例研究。他描述了如何利用 CI 从代码编译和单元测试到 TorchBench 自动化基准测试,确保新后端集成的质量。他还指出,计划缩短测试时间,明确所需的测试项目,并定义质量标准,以提高生态系统兼容性和开发效率。

本次 PyTorch 见面会作为深入开发者交流的技术桥梁,展现了 PyTorch 生态系统在 AI 前沿领域的蓬勃活力。通过多元的视角,与会者描绘了开源协作如何推动技术进步的图景。我们期待更多开发者加入这场开放繁荣的创新浪潮,在智能时代,每一次交流都能激发新的火花。
