2025年6月7日,PyTorch Day China 在北京成功举办,由 PyTorch Foundation 和北京智源人工智能研究院 (BAAI) 联合主办。为期一天的会议共进行了16场演讲,平均每场会议有160名参会者。浏览完整的 YouTube 播放列表,查找您感兴趣的会议。
PyTorch Foundation 执行董事 Matt White 深入阐述了 PyTorch Foundation 致力于加速开源 AI 的承诺。基金会自两年前成立以来,已发展到30名成员,并演变为一个伞形基金会,能够托管 PyTorch 核心之外的开源项目。vLLM 和 DeepSpeed 成为基金会旗下的首批项目,BAAI 的开源项目 FlagGems 也加入了 PyTorch 生态系统。为支持本地社区发展而启动的 PyTorch 大使计划在一个月内收到了200多份申请。Matt 还介绍了 PyTorch 新网站,以及 PyTorch 大会和开源 AI 周的日程安排。他提到了基金会即将推出的举措,包括演讲者名录、大学合作和培训认证,并感谢了与会者,表达了对当天演讲的期待。
2. 在多样化 AI 芯片上运行大模型:PyTorch + 开源堆栈 (FlagOS) 实现无架构部署
北京智源人工智能研究院副院长林咏华讨论了当前在多样化 AI 芯片上运行大模型的现状。她解释了构建统一开源系统软件堆栈的原因:大模型面临成本高昂、资源需求巨大以及训练/推理昂贵等挑战,而碎片化的全球 AI 加速器生态系统又带来了额外问题。随后,她介绍了由智源研究院与多个合作伙伴共同开发的 FlagOS,包括核心组件和必要工具,支持各种底层芯片和系统部署架构,以及多种大模型。它已获得多种架构的支持,并在算子效率和兼容性方面表现出色。最后,她呼吁更多团队参与构建这个开源生态系统。
3. 深入 Hugging Face Hub;在第一大 AI 中心,70万+ PyTorch 模型的家园分享您的模型权重
来自 HuggingFace 的王铁铮介绍了 HuggingFace Hub,这是一个常被称为“AI 的 GitHub”的开源 AI 社区。它托管了大量的开源模型和数据集,并提供多样化的功能:用于轻松测试模型的空间、内核、API 提供商网关、社交沟通功能以及与开源相关的指标。其模型库提供按受欢迎程度和任务进行便捷过滤的功能,并设有热门模型页面,展示各种热门模型。每个模型都有一个专门的页面,显示模型卡、代码和结构化数据。对于数据集,它支持 Git 仓库,提供可视化和 SQL 查询功能,并提供强大的编程接口。
4. Verl:一个用于代理任务的开源大规模 LLM 强化学习框架
来自字节跳动的仝宇轩介绍了verl,这是一个开源的大规模 LLM 强化学习框架。他首先强调了大规模强化学习的重要性,它显著增强了语言模型的性能,并在实际任务中具有广泛应用。然而,它面临着复杂的数据流(涉及多个模型、阶段和工作负载)、分布式工作负载以及平衡数据依赖和资源约束的挑战。Verl 的优势在于平衡了灵活性和效率:它通过单一控制器范式实现了编程灵活性,允许用最少的代码描述核心逻辑并支持多种算法,并且它具有混合引擎以优化资源利用。该框架拥有一个活跃的开源社区,有几个流行的项目都建立在其之上。最后,他分享了社区的未来路线图并欢迎新成员。
5. PyTorch 在中国:社区增长、本地化与互动
来自华为的宗泽胜讨论了 PyTorch 在中国的发展。作为全球流行的框架,PyTorch 拥有大量来自中国的贡献者,在全球名列前茅。为了解决初学者本地化资源匮乏的问题,他们翻译了 PyTorch 官方网站,建立了社区主页,并翻译了从初级到高级的教程。他们还通过聊天频道(去年底建立)积极与用户互动,发布了60多篇技术博客,并获得了2500名订阅者。未来的计划包括进一步自动化翻译,提供更多高质量的资源和活动,并邀请用户参与。
6. AI 开源发展及其对 AI 生态系统的影响
CSDN 高级副总裁兼 Boulon 技术专家李建忠分享了对 AI 开源发展及其对 AI 生态系统影响的见解。他比较了全球和中国的 AI 技术生态系统,指出中国的 AI 开源在全球的重要性日益增加,并将 AI 的发展与地球上生物智能的演变进行了类比。随后,他讨论了推理模型的发展,这些模型使大模型能够“慢思考”,并减少对训练语料库中弱推理信号的依赖,其中强化学习中的机器合成数据发挥着关键作用。他分析了开源对生态系统的影响,包括大幅降低模型训练和推理成本,并推动 AI 应用向能够规划、协作和行动的代理发展。
7. torch.accelerator:用于基于流的加速器的统一、设备无关的运行时 API
来自英特尔的余广业介绍了 PyTorch 2.6 中推出的torch.accelerator API,这是一个用于基于流的加速器的统一、设备无关的运行时 API。尽管 PyTorch 作为一个广泛使用的机器学习框架支持各种加速硬件,但现有的运行时与特定的设备模块耦合(例如,`torch.cuda.current_device` 仅适用于 CUDA 设备),这限制了代码的可移植性,并给硬件供应商集成新后端带来了挑战。PyTorch 2.5 引入了加速器的概念,2.6 提出了一个统一的设备无关的运行时 API,其功能与现有设备特定的 API 紧密映射,以最大限度地减少代码迁移更改。未来的计划包括添加内存相关的 API 和通用单元测试。最后,他感谢社区和贡献者为这些改进所做的努力。
8. vLLM:人人都能轻松、快速、廉价地进行 LLM 服务
来自清华大学的游凯超介绍了vLLM,旨在为所有人提供易于访问、快速且经济实惠的语言模型推理服务。它于2023年6月开源,凭借近4.83万的 GitHub 星标而受到广泛关注。它易于使用,支持离线批处理推理和与 OpenAI 兼容的 API 服务器,并适用于各种模型类型。作为主要语言模型公司的官方合作伙伴,它可以在模型发布后立即部署。vLLM 支持多种硬件,探索基于插件的集成,并应用于日常生活和企业应用。它通过软件包、Docker 镜像、预编译的 wheel 和强大的持续集成系统优先考虑用户体验。最后,他感谢 vLLM 社区的1100多名贡献者。
9. 一个由 torch_musa 驱动的基于 torch.fx 的压缩工具包
来自摩尔线程的莫凡介绍了torch_musa,这是一个 PyTorch 插件,使 PyTorch 能够在其平台上原生运行,并具有高度优化的功能和算子。随后,他详细介绍了压缩工具包,解释了选择 FX(可调试、易于修改图、易于集成)的原因。其工作流程涉及输入模型和配置文件,在跟踪阶段捕获完整的模型图,并通过后端进行优化/缩减。他还介绍了定制优化和对多种数据类型的支持。未来的工作包括使大型语言和视觉模型可跟踪、加速推理以及构建容错系统。
10. 字节跳动视频生成基础模型的高效训练
来自字节跳动的张衡分享了字节跳动在视频生成基础模型大规模、高性能训练方面的经验,包括在广告、电影和动画中的应用。他介绍了视频生成模型的结构(VE 编码、MMDIT 扩散、VE 解码)和训练过程(分阶段训练,VE 编码离线以优化存储和预处理)。他还讨论了视频生成模型中负载不平衡的挑战和解决方案。
11. torch.compile 在不同场景下的实践与优化
来自阿里云的颜奕晨分享了团队在 `torch.compile` 实践与优化方面的经验。`torch.compile` 通过图捕获、回退处理和优化内核生成等组件,仅用一行代码即可加速模型,但在生产环境中面临挑战。为解决这些问题,团队解决了 Dynamo 和 DeepSpeed ZeRO/梯度检查点之间的兼容性,并向相关库提交了集成解决方案;通过模式匹配识别并重写注意力计算模式,以实现更好的融合和性能;优化了输入对齐以减少不必要的重新编译。他还提到了未解决的问题和未来方向:动态形状的编译策略、启动延迟优化、减少开销以及改进内核缓存机制。
12. 生产环境中的 PyTorch:在昇腾 NPU 上加速 LLM 训练和推理
来自华为的李嘉伟和李晶介绍了 PyTorch 生态系统中昇腾 NPU (torch_npu) 的进展。他们重点关注 PyTorch 上游多样性支持,解释了第三方设备集成机制:使用基于 CPU 的模拟后端 OpenRag 作为测试后端来监控接口功能,并建立机制供下游硬件供应商在社区 PR 合并之前识别风险。
李晶分享了昇腾 NPU 的性能和生态系统支持。他介绍了torch_npu 架构以实现高性能和可靠性。目前已支持20多个流行库,包括 vLLM、torchtune、torchtitan 等。他还解释了 torch_npu 与 NPUGraph 和 torch.compile 协同工作的机制,以提供高性能计算。最后,他邀请大家加入社区并参加定期会议。
13. Hetu-Galvatron:一个用于高效大规模基础模型训练的自动分布式系统
来自北京大学的刘心怡和王宇杰详细介绍了Hetu-Galvatron,这是一个基于 PyTorch 的创新系统,其主要特点是:自动优化、多功能性和用户友好性。对于模型转换,它基于原生 PyTorch 构建,通过替换支持张量和同步比较的层,将单 GPU 训练模型转换为支持多并行度的模型。对于自动优化,它拥有一个基于成本模型和搜索算法的引擎。它支持多样化的模型架构和硬件后端,通过 PyTorch 确保与 GPU 和 NPU 的集成。它在不同的集群和模型上表现出卓越的效率,并验证了性能和准确性。未来的计划包括集成 torch FSDP2,支持更多并行策略,更多模型和注意力类型,以及优化训练后工作流程。
14. 英特尔的 PyTorch 之旅:提升 AI 性能并优化开源软件
来自英特尔 PyTorch 团队的马明飞介绍了英特尔在 PyTorch 方面的工作。对于英特尔 GPU 上的 PyTorch 优化,英特尔在 Linux 和 Windows 上提供支持,涵盖运行时、算子支持、`torch.compile` 和分布式训练。对于 `torch.compile` 中的 CPU 后端优化,团队参与了架构设计,扩展了数据类型支持,实现了 gemm 模板的自动调优,支持 Windows,并持续改进性能加速。对于 DeepSeek 671B 完整版性能优化,团队完成了 CPU 后端开发,取得了显著的加速(预填充性能提升14倍,解码性能提升2.9倍),支持多种数据类型,以低成本满足了实时需求。
15. FlagTree:适用于多样化 AI 芯片的统一 AI 编译器
来自北京智源人工智能研究院的孟春雷介绍了FlagTree,一个支持多样化 AI 芯片的统一 AI 编译器,也是 FlagOS 开源堆栈的关键组件。FlagOS 由智源研究院与多个合作伙伴共同开发,包括FlagGems(大型模型通用算子库)、FlagCX(多芯片通信)以及并行训练/推理框架,支持大型模型训练和推理。他还介绍了 FlagTree 用于多后端集成的架构,以及正在开发的功能:基于注解的编程范式、重构的 Triton 编译器运行时等,通过相关优化显著提升了性能。
16. KTransformers:释放 MoE 模型 CPU/GPU 混合推理的全部潜力
来自清华大学的张明行博士介绍了KTransformers,即 Quick Transformers,这是一个构建在 HuggingFace 的 Transformers 之上的库,旨在通过优化的算子集成和数据布局策略,释放 MoE 模型 CPU/GPU 混合推理的潜力。最初设计为一个灵活的框架,用于集成各种算子优化,它解决了由于模型更大和上下文更长而导致的推理成本上升问题。对于低吞吐量和并发场景,它通过将计算密集型部分卸载到 GPU,将稀疏部分卸载到 CPU(针对 DeepSeek 等模型量身定制),并具有灵活的配置,实现了低门槛模型操作。未来的重点包括注意力层稀疏化、添加局部微调以及维护用于分布式推理的Mooncake项目,欢迎社区交流。
17. SGLang:一个用于大规模 LLM 服务的高效开源框架
来自上海交通大学的研究生殷梁生介绍了SGLang,一个用于大规模 LLM 服务的高效开源框架。作为一个性能领先的开源引擎,具有优雅、轻量级和可定制的设计,它被学术界以及微软和 AMD 等公司采用,提供高性能的强化学习解决方案。其核心是 PD 解耦设计,解决了非解耦模式中的问题:延迟、计算-通信不平衡和调度不兼容。它通过负载均衡器路由请求,实现预取和解码实例之间的 KV 缓存传输。未来的计划包括延迟优化、更长序列支持和集成数据并行注意力。拥有400多名贡献者,它被多家企业使用。