2025年6月7日,PyTorch Day China 在北京举行,由 PyTorch 基金会与北京智源人工智能研究院(BAAI)共同主办。本次为期一天的会议共进行了 16 场演讲,平均每场参会人数达 160 人。您可以浏览完整的 YouTube 播放列表,查找您感兴趣的讲座。

PyTorch 基金会执行董事 Matt White 发表了主题演讲,阐述了基金会致力于加速开源 AI 的承诺。基金会成立两年以来,成员单位已增长至 30 家,并演进为一个能够托管 PyTorch 核心之外开源项目的伞形基金会。vLLM 和 DeepSpeed 成为首批加入该基金会的项目,智源的开源项目 FlagGems 也加入了 PyTorch 生态系统。为支持本地社区发展而推出的 PyTorch 大使计划(PyTorch Ambassador Program)在短短一个月内收到了超过 200 份申请。Matt 还介绍了全新的 PyTorch 官方网站,以及 PyTorch 大会和开源 AI 周的日程安排。他提到了基金会即将开展的举措,包括演讲者局(Speaker Bureau)、高校合作和培训认证,并感谢了与会者,表示对当天的演讲充满期待。
2. 在多样的 AI 芯片上运行大模型:PyTorch + 开源栈 (FlagOS) 实现架构无关部署

北京智源人工智能研究院副院长林咏华探讨了在大模型在多样化 AI 芯片上运行的现状。她解释了构建统一开源系统软件栈的逻辑:大模型面临着高成本、海量资源需求以及昂贵的训练/推理挑战,而碎片化的全球 AI 加速器生态系统又带来了额外的问题。她随后介绍了由智源联合多个合作伙伴开发的 FlagOS,该系统包含核心组件和必要工具,支持多种底层芯片和系统部署架构,并兼容多种大模型。它已获得多种架构的支持,在算子效率和兼容性方面展现了卓越的性能。最后,她呼吁更多团队参与构建这一开源生态系统。
3. 深入探索 Hugging Face Hub:在第一大 AI 中心分享您的模型权重,这里汇聚了 70 万+ PyTorch 模型

来自 HuggingFace 的王铁震介绍了 HuggingFace Hub,这是一个通常被称为“AI 界的 GitHub”的开源 AI 社区。它托管了大量的开源模型和数据集,并提供多样化的功能:用于轻松测试模型的 Spaces、内核、API 提供商网关、社交交流功能以及与开源相关的度量指标。其模型库提供了按流行度和任务进行筛选的便捷功能,热门模型页面展示了各类热门模型。每个模型都有专门的页面来显示模型卡片、代码和结构化数据。对于数据集,它支持 git 仓库,提供可视化和 SQL 查询功能,并提供强大的编程接口。
4. verl:用于智能体任务的大规模开源 LLM 强化学习框架

来自字节跳动的童宇轩介绍了 verl,这是一个大规模大语言模型(LLM)强化学习框架。他首先强调了大规模强化学习的重要性,它能显著提升语言模型性能,并在现实世界任务中有广泛应用。然而,它面临着复杂的数据流(涉及多个模型、阶段和工作负载)、分布式工作负载以及平衡数据依赖与资源约束等挑战。Verl 的优势在于灵活性与效率的平衡:它通过单控制器范式实现编程灵活性,仅需极少量代码即可描述核心逻辑,并支持多种算法;它还具备混合引擎以优化资源利用率。该框架拥有活跃的开源社区,许多热门项目均基于此构建。最后,他分享了社区的未来路线图并欢迎新成员加入。
5. PyTorch 在中国:社区成长、本地化与互动

来自华为的宗泽盛讨论了 PyTorch 社区在中国的成长。作为全球流行的框架,PyTorch 在中国拥有大量贡献者,全球排名靠前。为解决初学者本地化资源不足的问题,他们翻译了 PyTorch 官方网站,建立了社区主页,并翻译了从初级到高级的教程。他们还通过聊天频道(去年底建立)积极与用户互动,发布了 60 多篇技术博客,并拥有了 2,500 名订阅者。未来计划包括进一步自动化翻译流程、提供更多高质量资源和活动,并邀请用户参与进来。
6. AI 开源的发展及其对 AI 生态系统的影响

CSDN 高级副总裁、Boulon 技术专家李建忠分享了关于 AI 开源发展及其对 AI 生态系统影响的见解。他对比了全球和中国的 AI 技术生态系统,指出中国 AI 开源正日益受到全球重视,并类比了 AI 的发展与地球生物智能的演化。随后,他探讨了推理模型的发展,这些模型使大模型能够“慢思考”,并减少对训练语料库中弱推理信号的依赖,其中强化学习中的机器合成数据发挥了关键作用。他分析了开源对生态系统的影响,包括大幅降低模型训练和推理成本,并推动 AI 应用向具备规划、协作和行动能力的智能体演进。
7. torch.accelerator:面向流式加速器的统一、设备无关运行时 API

来自英特尔的于广业介绍了 PyTorch 2.6 中推出的 torch.accelerator API,这是一个面向流式加速器的统一、设备无关的运行时 API。虽然 PyTorch 作为一个广泛使用的机器学习框架支持多种加速硬件,但现有的运行时与特定的设备模块耦合(例如 `torch.cuda.current_device` 仅适用于 CUDA 设备),限制了代码的可移植性,也为硬件厂商集成新后端带来了挑战。PyTorch 2.5 引入了加速器的概念,2.6 提出了统一的设备无关运行时 API,其功能与现有的特定设备 API 紧密映射,以最大限度地减少代码迁移成本。未来计划包括增加内存相关 API 和通用单元测试。他最后感谢了社区和贡献者所做的这些改进。
8. vLLM:为每个人提供简单、快速、廉价的 LLM 服务

来自清华大学的游凯超介绍了 vLLM,其目标是为每个人提供易于访问、快速且经济实惠的语言模型推理服务。该项目于 2023 年 6 月开源,已获得广泛关注,在 GitHub 上拥有近 48.3K Star。它使用简单,支持离线批量推理和与 OpenAI 兼容的 API 服务器,并适用于各种模型类型。作为各大语言模型公司的官方合作伙伴,它能实现模型发布后的立即部署。vLLM 支持多种硬件,探索基于插件的集成,并已应用于日常生活和企业场景中。它通过打包、Docker 镜像、预编译 wheel 和稳健的持续集成系统优先考虑用户体验。最后,他感谢了 vLLM 社区的 1,100 多名贡献者。
9. 基于 torch.fx 的压缩工具包,由 torch_musa 赋能

来自摩尔线程的莫凡介绍了 torch_musa,这是一个 PyTorch 插件,使 PyTorch 能够在其平台上原生运行,并提供高度优化的特性和算子。随后他详细介绍了该压缩工具包,解释了选择 FX 的原因(可调试、易于修改图、易于集成)。其工作流程包括输入模型和配置文件,在跟踪阶段捕获完整的模型图,并通过后端进行优化/裁剪。他还涵盖了自定义优化和对多种数据类型的支持。未来的工作包括使大型语言模型和视觉模型可跟踪、加速推理并构建容错系统。
10. 字节跳动视频生成基础模型的高效训练

来自字节跳动的张恒分享了字节跳动在大规模、高性能视频生成基础模型训练方面的经验,包括在广告、电影和动画领域的应用。他介绍了视频生成模型的结构(VE 编码、MMDIT 扩散、VE 解码)和训练流程(分阶段训练,VE 编码离线化以优化存储和预处理)。他还讨论了视频生成模型中负载不平衡的挑战及解决方案。
11. `torch.compile` 在不同场景下的实践与优化

来自阿里云的严翊辰分享了团队在 `torch.compile` 实践与优化方面的经验。`torch.compile` 通过图捕获、回退处理和优化内核生成等组件,仅需一行代码即可加速模型,但在生产环境中面临挑战。为解决这些问题,团队解决了 Dynamo 与 DeepSpeed ZeRO/梯度检查点(gradient checkpointing)之间的兼容性问题,并向相关库提交了集成解决方案;通过模式匹配识别并重写了注意力计算模式以实现更好的融合和性能;并优化了输入对齐以减少不必要的重新编译。他还提到了尚未解决的问题和未来方向:动态形状的编译策略、启动延迟优化、降低开销以及改进内核缓存机制。
12. 生产环境中的 PyTorch:在昇腾 NPU 上提升 LLM 训练和推理性能

来自华为的李佳伟和李晶介绍了 PyTorch 生态中昇腾 NPU (torch_npu) 的进展。他们专注于为 PyTorch 提供上游多样性支持,解释了第三方设备集成机制:使用基于 CPU 的模拟后端 OpenRag 作为测试后端来监控接口功能,并为下游硬件供应商建立机制,以便在社区 PR 合并前识别风险。

李晶分享了昇腾 NPU 的性能和生态支持。他介绍了 torch_npu 的高性能与高可靠性架构。目前已支持超过 20 多个主流库,包括 vLLM、torchtune、torchtitan 等。他还解释了 torch_npu 与 NPUGraph 及 torch.compile 协同工作的机制,以提供高性能计算。最后,他邀请大家加入社区并参加定期会议。
13. Hetu-Galvatron:用于高效大规模基础模型训练的自动分布式系统


来自北京大学的刘新毅和王玉杰详细介绍了 Hetu-Galvatron,这是一个基于 PyTorch 的创新系统,具有自动优化、多功能和用户友好等关键特性。在模型转换方面,它基于原生 PyTorch 构建,通过替换支持张量和同步比较的层,将单 GPU 训练模型转换为支持多并行的模型。在自动优化方面,它拥有基于成本模型和搜索算法的引擎。它支持多种模型架构和硬件后端,确保通过 PyTorch 与 GPU 和 NPU 集成。它在不同集群和模型上展现了卓越的效率,并验证了性能和准确性。未来计划包括集成 torch FSDP2,支持更多并行策略、更多模型和注意力类型,并优化训练后的工作流。
14. 英特尔的 PyTorch 之旅:推动 AI 性能与优化开源软件

来自英特尔 PyTorch 团队的马明飞介绍了英特尔在 PyTorch 方面的工作。针对英特尔 GPU 上的 PyTorch 优化,英特尔提供了 Linux 和 Windows 支持,涵盖了运行时、算子支持、`torch.compile` 和分布式训练。在 `torch.compile` 的 CPU 后端优化方面,团队参与了架构设计、扩展了数据类型支持、实现了 gemm 模板的自动调优、支持 Windows,并持续改进性能提升。针对 DeepSeek 671B 全版本性能优化,团队完成了 CPU 后端开发并实现了显著的加速(Prefill 阶段性能提升 14 倍,Decode 阶段提升 2.9 倍),支持多种数据类型,以低成本满足了实时性要求。
15. FlagTree:面向多样化 AI 芯片的统一 AI 编译器

来自北京智源人工智能研究院的门春雷介绍了 FlagTree,这是一个支持多种 AI 芯片的统一 AI 编译器,也是 FlagOS 开源栈的核心组件。FlagOS 由智源联合多方共同开发,包括 FlagGems(面向大模型的通用算子库)、FlagCX(多芯片通信)以及并行训练/推理框架,支持大模型训练与推理。他还介绍了 FlagTree 用于多后端集成的架构,以及正在开发中的特性:基于注解的编程范式、重构的 Triton 编译器运行时等,通过相关优化实现了显著的性能提升。
16. KTransformers:释放 MoE 模型 CPU/GPU 混合推理的全部潜能

来自清华大学的张明星博士介绍了 KTransformers(即 Quick Transformers),这是一个构建在 HuggingFace Transformers 之上的库,旨在通过优化的算子集成和数据布局策略,释放 MoE 模型在 CPU/GPU 混合推理方面的潜力。最初设计为一个集成各种算子优化的灵活框架,它解决了因模型更大、上下文更长而导致的推理成本上升问题。对于吞吐量和并发较低的场景,它通过将计算密集型部分卸载到 GPU,将稀疏部分卸载到 CPU(针对 DeepSeek 等模型量身定制),实现了低门槛的模型运行和灵活的配置。未来重点包括注意力层稀疏化、增加本地微调,并维护 Mooncake 分布式推理项目,欢迎社区交流。
17. SGLang:一种高效的大规模 LLM 服务开源框架

来自上海交通大学的研究生尹良生介绍了 SGLang,这是一个高效的大规模 LLM 服务开源框架。作为一款性能领先、设计优雅、轻量且可定制的开源引擎,它已被学术界以及微软和 AMD 等公司采用,提供高性能 RL 解决方案。其核心是 PD 分离设计,解决了非解耦模式下存在的延迟、计算-通信不平衡以及调度不兼容问题。它通过负载均衡器路由请求,实现了预取实例与解码实例之间的 KV 缓存传输。未来计划包括延迟优化、长序列支持以及集成数据并行注意力。拥有 400 多名贡献者,已被多家企业采用。