5 月 17 日,PyTorch 见面会在杭州成功举办,吸引了来自华为、腾讯、蚂蚁集团、字节跳动等公司的近 60 名开发者和行业专家。本次活动聚焦 PyTorch 生态发展、AI 加速技术和行业实践。通过主题演讲和技术分会,与参会者进行了深入讨论,为交流与合作提供了宝贵平台。
会议亮点
PyTorch 社区最新进展及生态展望
PyTorch 技术咨询委员会 (TAC) 成员姜一坤分享了 PyTorch 社区的最新进展。主题包括 PyTorch 的总体进展、PyTorch 基金会扩展为伞形基金会、大使计划和 PyTorch 大会规划。他强调 PyTorch 如何通过技术迭代、生态扩展和全球协作持续推动 AI 开源技术的创新和实际应用。他呼吁开发者积极参与社区建设,共同塑造 AI 开源生态的未来。
Torchair:针对 Ascend NPU 优化的 torch.compile 后端
华为高级工程师薛鹏介绍了基于 Ascend NPU 的图模式优化技术实践。他介绍了 Torchair 的两种模式——降低开销 (Reduce-overhead) 和最大自动调优 (Max-autotune)——并详细阐述了在内存管理、动态形状、多流并行和编译时缓存方面的深度优化。这些改进旨在提高模型训练和推理性能,同时保持易用性。
PyTorch 生态系统在 Ascend 上的应用
华为软件工程师纪元昊讨论了 Ascend NPU 对 PyTorch 生态系统项目的支持。他重点关注模型训练、微调和推理,并以 TorchTitan、TorchTune 和 vLLM 为案例研究。他解释了它们的核心功能以及针对 Ascend 的适应策略,为在这些硬件上部署 PyTorch 项目提供了实用指导。
腾讯基于 vLLM 的生产级预填充/解码分离
腾讯高级工程师张超介绍了大模型推理中预填充/解码 (PD) 分离的实践。该技术将计算密集型预填充阶段与内存密集型解码阶段解耦,显著提高了系统吞吐量和资源利用率。他的演讲涵盖了关键技术实现,例如 KV 缓存传输优化、智能负载均衡和多轮对话缓存。在同构 GPU 和 Ascend A2 + H20 等异构设置上的实际部署显示性能提升了 20%–50%。腾讯进一步优化了 vLLM 框架,使其适用于 CPU、GPU,并使用管道分解、低精度 KV 缓存和图编译器来增强其在不同硬件平台上的适应性和性能。
关键强化学习 (RL) 加速技术和训练实践
华为高级工程师潘辰翼分享了 Ascend 在强化学习和生态系统发展方面的突破。针对 RL 系统资源利用率低的问题,引入了一种训练-推理协同卡解决方案,可以高效地在两个任务之间切换。这种方法不仅节省了 50% 的计算资源,还将单卡吞吐量提高了一倍,并将推理内存可用性提高了 80%。为了丰富技术生态系统,Ascend 还推出了 TransferDock,这是一种流数据引擎,采用动态负载均衡策略,与传统缓存机制相比,任务效率提高了 10% 以上。
在框架方面,MindSpeed-RL 将 MindSpeed 训练后端与 vLLM 推理引擎相结合,支持动态权重分区和集群资源分时,同时保持与主流开源生态系统的兼容性。使用 Qwen2.5-32B 模型进行的基准测试表明,该设置在 MATH500 等评估中优于 SimpleRL-Zoo 基线,展示了其技术领先地位。
Ray 在蚂蚁集团 AI 基础设施生态系统中的实践与探索
蚂蚁集团高级技术专家、蚂蚁 Ray 负责人朱森林分享了 Ray 在蚂蚁 AI 基础设施生态系统中的实践与探索。他概述了 Ray 的架构设计和编程范式。随着时间的推移,Ray 已发展成为 AI 系统的关键基础设施,支持训练、推理、超参数调优和强化学习。
自 2017 年以来,蚂蚁集团持续投入 Ray,目前已支持 200 万核规模的应用。蚂蚁还为社区贡献了关键功能,例如多租户支持和 Flow Insight 可视化调试工具。Flow Insight 特别缓解了复杂 AI 系统中的“黑箱”问题,并显著提高了大规模部署的可观测性和效率。
PyTorch 生态系统加速器开发中的挑战与标准化
华为社区开发者宗泽生系统地概述了 PyTorch 生态系统加速器开发中的挑战、解决方案和案例研究。集成非树外硬件的开发者面临版本兼容性问题和缺乏标准化质量基准,导致难以量化新设备支持。2025 年初,PyTorch 社区成立了一个新的探索小组来解决这些挑战。
主要改进包括:使用公共仓库 pytorch-fdn/oota 建立标准化测试框架,用于日常插件测试。开发 OpenReg 模块以模拟后端行为并用测试用例进行验证。优化 PrivateUse1 插件机制以降低集成复杂性。支持自动插件加载以简化设备访问。改进 torch.accelerator 设备无关 API 以实现更广泛的兼容性。
英特尔社区开发者王传奇随后分享了一个使用英特尔 Gaudi 集成和运行 CI 基础设施的案例研究。他描述了如何利用 CI 从代码编译和单元测试到 TorchBench 自动化基准测试,确保新后端集成的质量。他还指出了减少测试时间、明确所需测试项目和定义质量标准的计划,以提高生态系统兼容性和开发效率。
本次 PyTorch 见面会为开发者深入交流搭建了技术桥梁,展示了 PyTorch 生态系统在 AI 前沿领域的蓬勃活力。通过多元化的视角,与会者描绘了一幅开源协作如何推动技术进步的图景。我们期待更多开发者加入这场开放而蓬勃的创新浪潮,在智能时代,每一次交流都能激发出新的火花。