GTC 将于 2025 年 3 月 17 日至 21 日重返圣何塞。加入 PyTorch 基金会成员 Arm、AWS、Google Cloud、IBM、Lightning AI、Meta、Microsoft Azure、Snowflake 以及数千名开发者,共同庆祝 PyTorch。让我们一起了解 AI 和加速计算如何帮助人类解决最复杂的挑战。
通过 PyTorch 基金会的优惠注册渠道参加线下活动,或通过免费注册在线观看。

扩展开源 AI:从基础模型到生态系统成功
听听 PyTorch 基金会执行总监 Matt White 与来自加州大学伯克利分校、Meta、NVIDIA 和红杉资本的嘉宾们,探讨开源如何改变 AI 开发,汇聚行业、学术界和风险投资领域的专家,讨论协作式开源 AI 开发的技术与商业层面。他们将探讨 PyTorch、vLLM、Ray 和 NVIDIA NeMo 等开源项目如何加速 AI 创新,同时为企业和研究人员创造新机遇。他们将分享来自 PyTorch 开发、伯克利研究计划和成功 AI 初创公司的真实经验。获取有关开源 AI 技术与商业层面的宝贵见解。—— 3 月 17 日,星期一,太平洋夏令时间上午 10:00 – 11:00
GTC 上的 PyTorch
CUDA 的性能与 PyTorch 的灵活性
Mark Saroufim,Meta Platforms 软件工程师
本次演讲探讨了 PyTorch 用户如何转型为 CUDA 开发者。我们将从 eager 模式、torch.compile 的发布以及近期出现的 kernel zoo 趋势等动机案例切入。我们将分享如何在 torchao 和 torch.compile CUTLASS 后端中集成低位矩阵乘法(low bit matmuls)的细节。我们还将讨论如何定义、构建和打包您自己的 PyTorch 自定义算子,从而在保持 PyTorch 灵活性的同时获得 CUDA 的原始性能。
让我的 PyTorch 模型跑得更快,并展示你是怎么做到的
Thomas Viehmann,Lightning AI 首席研究工程师
Luca Antiga,Lightning AI 首席技术官
PyTorch 因其丰富性和易表达性而在深度学习和 LLM 领域广受欢迎。为了充分利用计算资源,PyTorch 模型通常得益于非平凡的优化,但这往往意味着牺牲一些易用性和可理解性。了解如何使用 Thunder(一个专注于可用性、可理解性和可扩展性的 PyTorch 转 Python 编译器)来优化和转换(即跨多机分布)模型,同时:• 保持 PyTorch 代码不变 • 针对各种模型进行优化,无需为每个模型进行适配 • 通过简单的 Python 代码展示结果,从而理解每一步转换 • 只需一行或几行代码即可访问强大的扩展代码来进行自定义优化。我们将展示 Thunder 转换与 NVIDIA 技术栈(NVFuser, cuDNN, Apex)的结合,如何在各种模型上实现训练和推理的优化性能。
FlexAttention:兼具 PyTorch 的灵活性与 FlashAttention 的高性能
Driss Guessous,Meta Platforms 机器学习工程师
介绍 FlexAttention:一种创新的 PyTorch API,可实现用户自定义的注意力机制,并具备媲美业界领先解决方案的性能。通过利用 PyTorch 编译器栈,FlexAttention 支持在 SDPA 中动态修改注意力分数,并通过 FlashAttention 算法进行内核融合,从而实现运行效率和内存效率的双重提升。我们在 A100 GPU 上的基准测试显示,FlexAttention 在前向传播中达到了 FlashAttention2 性能的 90%,反向传播中达到了 85%。在 H100 GPU 上,FlexAttention 的前向性能平均为 FlashAttention3 的 85%,比 FlashAttention2 快约 25%,反向性能平均为 FlashAttention3 的 76%,比 FlashAttention2 快约 3%。探索 FlexAttention 如何在近乎最优的性能与无与伦比的灵活性之间取得平衡,让研究人员能够快速迭代注意力机制,而无需牺牲效率。
让 GPU 全力运转:消除模型训练中的闲置时间
Syed Ahmed,NVIDIA 高级软件工程师
Alban Desmaison,Meta 研究工程师
Aidyn Aitzhan,NVIDIA 高级软件工程师
近期,在模型训练的计算密集型部分,如高性能注意力变体方面,已经取得了巨大进展。尽管意义重大,但这些进展也暴露了模型训练中之前被掩盖的瓶颈,例如集合通信期间的冗余拷贝和数据加载时间。我们将展示通过 Meta 与 NVIDIA 合作在 PyTorch 中取得的最新改进,旨在解决这些新暴露的瓶颈,并说明开发者如何利用这些改进。
加速 Python:社区与生态系统
Andy Terrel,NVIDIA CUDA Python 产品负责人
Jeremy Tanner,NVIDIA 开源项目负责人
Anshuman Bhat,NVIDIA CUDA 产品管理
Python 无处不在。仿真、数据科学和生成式 AI 都依赖于它。不幸的是,琳琅满目的工具让新手不知所措。我们将带您参观围绕加速 Python 编程的活跃社区和生态系统。探索各种能够实现 Python 高效计算和性能优化的工具、库和框架,包括 CUDA Python、RAPIDS、Warp 和 Legate。我们还将讨论与 PyData、PyTorch 和 JAX 社区的集成点。了解社区内的协作努力,包括推动加速计算创新的开源项目和贡献。我们将讨论利用这些框架提高 AI 驱动应用程序开发和大规模数据分析生产力的最佳实践。
借助 Google Cloud AI 超级计算机加速大规模 AI(由 Google Cloud 提供)
Deepak Patil,Google Cloud 产品经理
Rajesh Anantharaman,Google Cloud 机器学习软件产品管理主管
利用 Google Cloud AI Hypercomputer 释放您大规模 AI 工作负载的潜力——这是一种专为实现最大性能和效率而设计的超级计算架构。在本次会议中,我们将深入探讨 Google Cloud 上 NVIDIA GPU 的 PyTorch 和 JAX 技术栈,并展示在 Google Cloud 上构建高性能基础模型的能力。
洞察未来:AI 和图网络对金融分析未来的意义
Siddharth Samsi,NVIDIA 高级解决方案架构师
Sudeep Kesh,S&P Global 首席创新官
人工智能、智能体系统和图神经网络 (GNN) 正在成为评估、监控和预估金融服务投资组合机遇与风险的新前沿。尽管许多此类技术仍处于发展阶段,但企业渴望了解其潜力。了解 S&P Global 和 NVIDIA 如何携手合作,探索学习和集成这些能力的切实途径,范围从预测企业债券发行到更深入地理解资本市场。我们将展示使用 PyTorch-Geometric 库和涵盖三十年金融及非金融行业发行数据的市场数据图表示。技术进展包括二分图的生成和链路预测 GNN 预测。我们将讨论数据预处理、流水线、模型训练,以及这些技术如何在一个日益复杂的世界中拓宽能力。
利用 cuDNN 在 Blackwell 上解锁深度学习性能
Yang Xu(企业产品部),NVIDIA 深度学习软件工程经理
自发布以来,用于 GPU 加速深度学习 (DL) 基元库的 cuDNN 一直在为对话式 AI、推荐系统和语音识别等领域的众多 AI 应用程序提供动力。CuDNN 仍然是 PyTorch、JAX、Tensorflow 等主流框架中 DL 基元的核心库,涵盖了训练、微调和推理等应用场景。即使在快速发展的生成式 AI 领域——无论是 Llama、Gemma 还是需要复杂 DL 基元(如 flash attention 变体)的专家混合模型——cuDNN 都在为它们提供动力。了解关于 Blackwell 微缩放格式的 cuDNN 新增/更新 API,以及如何针对这些 API 进行编程。我们将深入探讨如何利用其图形 API 构建一些融合模式,例如矩阵乘法融合模式和来自最先进模型的融合 flash attention。了解 cuDNN 中新的 CUDA 图支持(不要与 cuDNN 图 API 混淆)如何被利用来避免重建 CUDA 图,从而为实际框架使用中的 CUDA 图捕获提供替代方案。
使用 Lightning AI 开源技术栈快速训练和部署 AI 系统(由 Lightning AI 提供)
Luca Antiga,Lightning AI 首席技术官
了解 Lightning 技术栈如何通过实际示例覆盖从数据准备到部署的全生命周期,并特别关注分布式训练和高性能推理。我们将展示重点关注新特性的示例,例如通过 DTensors 支持多维并行化,以及通过 torchao 进行量化。
与专家交流(互动环节)
与深度学习框架团队的专家会面
Eddie Yan,NVIDIA PyTorch 技术主管
Masaki Kozuki,NVIDIA PyTorch 高级软件工程师
Patrick Wang(企业产品部),NVIDIA PyTorch 软件工程师
Mike Ruberry,NVIDIA 深度学习框架杰出工程师
Rishi Puri,NVIDIA 高级深度学习工程师兼 PyTorch Geometric 负责人
培训实验室
AI 及其他领域的内核优化:解锁 Nsight Compute 的力量
Felix Schmitt,NVIDIA 高级系统软件工程师
Peter Labus,NVIDIA 高级系统软件工程师
学习如何利用 Nsight Compute 强大的分析能力解锁 NVIDIA GPU 的全部潜能。AI 工作负载正迅速增加对 GPU 计算的需求,确保它们高效利用所有可用的 GPU 资源至关重要。Nsight Compute 是理解内核执行行为和性能的最强大工具。学习如何配置和启动为您需求定制的分析任务,包括有关分析加速 Python 应用程序、PyTorch 等 AI 框架的建议,以及优化对现代 AI 性能至关重要的 Tensor Core 利用率。学习如何调试内核并使用 Nsight Compute 内置的专家系统——“指导分析”(Guided Analysis),它能自动检测常见问题,并将您直接引导至最相关的性能数据,直达源代码级别。
让检索更出色:针对特定领域 RAG 微调嵌入模型
Gabriel Moreira,NVIDIA 高级研究科学家
Ronay Ak,NVIDIA 高级数据科学家
大语言模型(LLM)为对话式聊天机器人和内容生成器等 AI 应用提供支持,但受到其训练数据的限制。这可能导致内容生成中的幻觉,从而需要最新或特定领域的信息。检索增强生成(RAG)通过使 LLM 能够访问外部上下文而无需修改模型参数来解决此问题。嵌入或稠密检索模型是 RAG 流水线中为 LLM 检索相关上下文的关键组件。然而,嵌入模型捕获自定义数据独特特征的有效性取决于其训练数据的质量和领域相关性。对嵌入模型进行微调以提供更准确、更符合用户特定领域需求的响应正受到越来越多的关注。
在本实验中,您将学习从特定领域语料库生成带有问题-上下文对的合成数据集,并处理这些数据进行微调。然后,使用合成数据微调文本嵌入模型并对其进行评估。
海报展示
使用神经反投影和视锥重采样进行单视图 X 射线 3D 重建
Tran Minh Quan,NVIDIA 开发者技术专家
助力医学 AI 新领域的应用:病理切片的加速特征计算
Nils Bruenggel,Roche Diagnostics Int. AG 首席软件工程师