作者:NVIDIA 的 PyTorch 团队

GTC 将于 2025 年 3 月 17 日至 21 日回到圣何塞。加入 PyTorch 基金会成员 Arm、AWS、Google Cloud、IBM、Lightning AI、Meta、Microsoft Azure、Snowflake 以及数千名开发者,共同庆祝 PyTorch。一起学习 AI 和加速计算如何帮助人类解决最复杂的挑战。

亲自参加可享受 PyTorch 基金会的 GTC 注册折扣,或免费在线观看

book cover

扩展开源 AI:从基础模型到生态系统成功

听取 PyTorch 基金会执行董事 Matt White 以及来自加州大学伯克利分校、Meta、NVIDIA 和 Sequoia Capital 的专家小组讨论开源如何改变 AI 开发,汇集工业界、学术界和风险投资领域的专家,探讨协作式开源 AI 开发的技术和商业方面。他们将研究 PyTorch、vLLM、Ray 和 NVIDIA NeMo 等开源项目如何在加速 AI 创新的同时,为企业和研究人员创造新的机会。他们将分享 PyTorch 开发、伯克利研究计划以及成功 AI 初创企业的真实世界经验。从中获取关于开源 AI 技术和商业方面的宝贵见解。– 太平洋夏令时间 3 月 17 日星期一上午 10:00 - 上午 11:00

PyTorch @ GTC

CUDA 的性能与 PyTorch 的灵活性
Mark Saroufim,Meta Platforms 软件工程师

本讲座探讨了 PyTorch 用户如何也正在成为 CUDA 开发者。我们将从 eager 模式、torch.compile 的发布以及近期 kernel zoos 的趋势中汲取启发性示例。我们将分享关于如何在 torchao 中集成低位矩阵乘法以及 torch.compile CUTLASS 后端的详细信息。我们还将讨论如何在 PyTorch 中定义、构建和打包您自己的自定义操作,以便在保持 PyTorch 灵活性的同时获得 CUDA 的原始性能。

让我的 PyTorch 模型更快,并告诉我你是怎么做到的
Thomas Viehmann,Lightning AI 首席研究工程师
Luca Antiga,Lightning AI 首席技术官

PyTorch 因其丰富性和表达的易用性而在深度学习和 LLM 中非常受欢迎。为了最大程度地利用计算资源,PyTorch 模型得益于重要的优化,但这确实会牺牲一些易用性和可理解性。了解如何使用 Thunder,这是一个专注于可用性、可理解性和可扩展性的 PyTorch 到 Python 编译器,您可以优化和转换(即将模型分发到多台机器上)模型,同时 • 保持 PyTorch 代码不变 • 针对各种模型而无需逐一调整 • 理解每个转换步骤,因为结果会以简单的 Python 代码形式呈现 • 只需一行或几行代码即可访问强大的扩展代码用于您自己的优化 我们将展示 Thunder 转换与 NVIDIA 技术栈(NVFuser、cuDNN、Apex)的结合如何在各种模型上实现训练和推理的优化性能。

FlexAttention:PyTorch 的灵活性与 FlashAttention 的性能
Driss Guessous,Meta Platforms 机器学习工程师

介绍 FlexAttention:一个新颖的 PyTorch API,它能够实现自定义的、用户定义的注意力机制,其性能可与最先进的解决方案相媲美。通过利用 PyTorch 编译器技术栈,FlexAttention 支持在 SDPA 中动态修改注意力得分,并通过与 FlashAttention 算法进行内核融合来实现运行时和内存效率。我们在 A100 GPU 上的基准测试显示,FlexAttention 在前向传播中达到 FlashAttention2 性能的 90%,在反向传播中达到 85%。在 H100 GPU 上,FlexAttention 的前向性能平均达到 FlashAttention3 的 85%,比 FlashAttention2 快约 25%;反向性能平均达到 FlashAttention3 的 76%,比 FlashAttention2 快约 3%。探索 FlexAttention 如何在接近最先进性能的同时提供无与伦比的灵活性,使研究人员能够在不牺牲效率的情况下快速迭代注意力机制。

让您的 GPU 持续运行:消除模型训练中的空白时间
Syed Ahmed,NVIDIA 高级软件工程师
Alban Desmaison,Meta 研究工程师
Aidyn Aitzhan,NVIDIA 高级软件工程师

最近在模型训练的计算密集型部分取得了显著进展,例如高性能的注意力变体。虽然价值巨大,但这些进展暴露了模型训练中先前隐藏的瓶颈,例如集体操作期间的冗余复制和数据加载时间。我们将展示通过 Meta/NVIDIA 协作在 PyTorch 中实现的最新改进,以解决这些新暴露的瓶颈,以及实践者如何利用它们。

加速 Python:社区与生态系统
Andy Terrel,NVIDIA CUDA Python 产品负责人
Jeremy Tanner,NVIDIA 开源项目
Anshuman Bhat,NVIDIA CUDA 产品管理

Python 无处不在。模拟、数据科学和生成式 AI 都依赖于它。不幸的是,工具的种类繁多令人不知所措。我们将带您领略加速 Python 编程充满活力的社区和生态系统。探索各种工具、库和框架,它们能够在 Python 中实现高效计算和性能优化,包括 CUDA Python、RAPIDS、Warp 和 Legate。我们还将讨论与 PyData、PyTorch 和 JAX 社区的集成点。了解社区内的协作努力,包括推动加速计算创新的开源项目和贡献。我们将讨论利用这些框架的最佳实践,以提高开发 AI 驱动应用程序和进行大规模数据分析的生产力。

使用 Google Cloud AI 超算机为大规模 AI 加速 (Google Cloud 提供)
Deepak Patil,Google Cloud 产品经理
Rajesh Anantharaman,Google Cloud ML 软件产品管理主管

使用 Google Cloud AI 超算机释放大规模 AI 工作负载的潜力——这是一种旨在实现最高性能和效率的超级计算架构。在本环节中,我们将深入探讨 Google Cloud 上 NVIDIA GPU 的 PyTorch 和 JAX 技术栈,并展示在 Google Cloud 上构建高性能基础模型的能力。

展望未来:AI 和图网络对未来金融分析的意义
Siddharth Samsi,NVIDIA 高级解决方案架构师
Sudeep Kesh,S&P Global 首席创新官

人工智能、智能体系统和图神经网络(GNN)正在为金融服务领域的工作组合提供评估、监控和预测机会与风险的新前沿。尽管许多这些技术仍在发展中,但组织渴望了解它们的潜力。了解 S&P Global 和 NVIDIA 如何合作寻找学习和集成这些能力的实用方法,范围从预测公司债券发行到更深入地理解资本市场。我们将使用 PyTorch-Geometric 库和一个涵盖三十年和跨金融和非金融行业发行数据的图表表示市场数据。技术发展包括二分图的生成和链接预测 GNN 预测。我们将讨论数据预处理、管道、模型训练,以及这些技术如何在一个日益复杂的世界中扩展能力。

使用 cuDNN 在 Blackwell 上释放深度学习性能
Yang Xu(企业产品),NVIDIA 深度学习软件工程经理

自发布以来,cuDNN 作为用于 GPU 加速深度学习(DL)原语的库,一直在为对话式 AI、推荐系统和语音识别等领域的许多 AI 应用提供支持。cuDNN 仍然是 PyTorch、JAX、Tensorflow 等流行框架中 DL 原语的核心库,同时涵盖训练、微调和推理用例。即使在快速发展的生成式 AI 领域——无论是 Llama、Gemma,还是需要复杂 DL 原语(如 flash attention 变体)的 MoE 变体——cuDNN 都在为其提供动力。了解 cuDNN 中与 Blackwell 微缩放格式相关的新/更新 API,以及如何针对这些 API 进行编程。我们将深入探讨如何利用其图 API 构建一些融合模式,例如矩阵乘法融合模式和来自最先进模型的融合 flash attention。了解 cuDNN 中新的 CUDA 图支持(不要与 cuDNN 图 API 混淆)如何用于避免重建 CUDA 图,从而为 CUDA 图捕获提供一种替代方案,并可应用于实际框架使用。

使用 Lightning AI 开源技术栈快速训练和部署 AI 系统 (Lightning AI 提供)
Luca Antiga,Lightning AI 首席技术官

了解 Lightning 技术栈如何覆盖从数据准备到部署的整个生命周期,并提供实际示例,特别关注分布式训练和高性能推理。我们将展示一些示例,重点介绍新功能,例如通过 DTensors 支持多维并行化以及通过 torchao 实现量化。

与专家交流(互动环节)

会见深度学习框架团队专家
Eddie Yan,NVIDIA PyTorch 技术主管
Masaki Kozuki,NVIDIA PyTorch 高级软件工程师
Patrick Wang(企业产品),NVIDIA PyTorch 软件工程师
Mike Ruberry,NVIDIA 深度学习框架杰出工程师
Rishi Puri,NVIDIA 高级深度学习工程师兼 PyTorch Geometric 负责人

训练实验室

AI 及更高层次的内核优化:释放 Nsight Compute 的力量
Felix Schmitt,NVIDIA 高级系统软件工程师
Peter Labus,NVIDIA 高级系统软件工程师

了解如何利用 Nsight Compute 强大的性能分析和分析功能,释放 NVIDIA GPU 的全部潜力。AI 工作负载对 GPU 计算的需求迅速增长,确保它们高效利用所有可用 GPU 资源至关重要。Nsight Compute 是理解内核执行行为和性能的最强大工具。了解如何配置和启动适合您需求的配置文件,包括分析加速 Python 应用程序、PyTorch 等 AI 框架以及优化对现代 AI 性能至关重要的 Tensor Core 利用率的建议。学习如何调试您的内核,并使用 Nsight Compute 内置的专家系统,即“引导分析”,它会自动检测常见问题并将您引导至源代码级别最相关的性能数据,直至源代码级别。

优化检索:为特定领域 RAG 微调嵌入模型
Gabriel Moreira,NVIDIA 高级研究科学家
Ronay Ak,NVIDIA 高级数据科学家

LLMs 为对话式聊天机器人和内容生成器等 AI 应用提供动力,但受限于其训练数据。这可能导致需要最新或特定领域信息的内容生成中出现幻觉。检索增强生成 (RAG) 通过使 LLMs 能够访问外部上下文而无需修改模型参数来解决此问题。嵌入或密集检索模型是 RAG 管道的关键组件,用于检索与 LLM 相关的上下文。然而,嵌入模型捕捉自定义数据独特特征的有效性取决于其训练数据的质量和领域相关性。微调嵌入模型越来越受到关注,以提供更准确和更相关的、针对用户特定领域定制的响应。

在本实验中,您将学习如何从特定领域语料库生成带有问题-上下文对的合成数据集,并处理数据进行微调。然后,使用合成数据微调文本嵌入模型并进行评估。

海报展示

使用神经反向投影和视锥体重采样进行单视图 X 射线 3D 重建
Tran Minh Quan,NVIDIA 开发者技术专家

在医学新 AI 领域实现创新应用:病理切片的加速特征计算
Nils Bruenggel,罗氏诊断国际有限公司首席软件工程师