PyTorch 在 GTC 2025 – PyTorch

GTC 将于 2025 年 3 月 17 日至 21 日重返圣何塞。加入 PyTorch 基金会成员 Arm、AWS、Google Cloud、IBM、Lightning AI、Meta、Microsoft Azure、Snowflake 以及数千名开发者，共同庆祝 PyTorch。一起了解 AI 和加速计算如何帮助人类解决最复杂的挑战。

通过 PyTorch 基金会的折扣 GTC 注册亲自参加，或免费在线观看。

扩展开源 AI：从基础模型到生态系统成功

听取 PyTorch 基金会执行董事 Matt White 以及来自加州大学伯克利分校、Meta、NVIDIA 和 Sequoia Capital 的小组成员讨论开源如何改变 AI 开发，汇集了来自工业界、学术界和风险投资界的专家，讨论协作式开源 AI 开发的技术和商业方面。他们将探讨 PyTorch、vLLM、Ray 和 NVIDIA 的 NeMo 等开源项目如何加速 AI 创新，同时为企业和研究人员创造新机遇。他们将分享 PyTorch 开发、伯克利研究计划和成功的 AI 初创公司的真实经验。获取有关开源 AI 的技术和商业方面的宝贵见解。——太平洋时间 3 月 17 日星期一上午 10:00 - 上午 11:00

PyTorch @ GTC

CUDA 的性能与 PyTorch 的灵活性
Mark Saroufim，Meta Platforms 软件工程师

本次演讲探讨了 PyTorch 用户如何也成为 CUDA 开发者。我们将从 eager、torch.compile 的发布以及最近内核动物园的趋势中寻找激励性示例。我们将分享有关如何在 torchao 和 torch.compile CUTLASS 后端中集成低位矩阵乘法的详细信息。我们还将讨论如何在 PyTorch 中定义、构建和打包您自己的自定义操作，以便您在保持 PyTorch 灵活性的同时获得 CUDA 的原始性能。

让我的 PyTorch 模型快速运行，并告诉我你是如何做到的
Thomas Viehmann，Lightning AI 首席研究工程师
Luca Antiga，Lightning AI 首席技术官

PyTorch 因其丰富的表达能力和易用性而在深度学习和 LLM 中广受欢迎。为了充分利用计算资源，PyTorch 模型受益于非平凡的优化，但这会使其失去一些易用性和可理解性。了解如何使用 Thunder，一个专注于可用性、可理解性和可扩展性的 PyTorch-to-Python 编译器，您可以优化和转换（即，分发到多台机器）模型，同时 • 保持 PyTorch 代码不变 • 针对各种模型而无需适应每个模型 • 理解每个转换步骤，因为结果以简单的 Python 代码呈现 • 只需一两行代码即可访问强大的扩展代码进行您自己的优化。我们将展示 Thunder 转换和 NVIDIA 堆栈（NVFuser、cuDNN、Apex）的组合如何在一系列模型上提供训练和推理的优化性能。

FlexAttention：PyTorch 的灵活性与 FlashAttention 的性能
Driss Guessous，Meta Platforms 机器学习工程师

介绍 FlexAttention：一种新颖的 PyTorch API，可实现自定义、用户定义的注意力机制，其性能可与最先进的解决方案相媲美。通过利用 PyTorch 编译器堆栈，FlexAttention 支持 SDPA 中注意力分数的动态修改，通过与 FlashAttention 算法的内核融合实现运行时和内存效率。我们对 A100 GPU 的基准测试显示，FlexAttention 在前向传播中达到 FlashAttention2 性能的 90%，在后向传播中达到 85%。在 H100 GPU 上，FlexAttention 的前向性能平均为 FlashAttention3 的 85%，比 FlashAttention2 快约 25%，而后向性能平均为 FlashAttention3 的 76%，比 FlashAttention2 快约 3%。探索 FlexAttention 如何在接近最先进的性能与无与伦比的灵活性之间取得平衡，使研究人员能够在不牺牲效率的情况下快速迭代注意力机制。

让你的 GPU 持续加速：粉碎模型训练中的空白时间
Syed Ahmed，NVIDIA 高级软件工程师
Alban Desmaison，Meta 研究工程师
Aidyn Aitzhan，NVIDIA 高级软件工程师

最近在模型训练的计算密集型部分取得了实质性进展，例如高性能的注意力变体。虽然这些进展价值不菲，但它们也暴露了模型训练中以前隐藏的瓶颈，例如集合通信中的冗余复制和数据加载时间。我们将展示 PyTorch 中通过 Meta/NVIDIA 协作取得的最新改进，以解决这些新暴露的瓶颈以及实践者如何利用它们。

加速 Python：社区与生态系统
Andy Terrel，NVIDIA CUDA Python 产品负责人
Jeremy Tanner，NVIDIA 开源项目
Anshuman Bhat，NVIDIA CUDA 产品管理

Python 无处不在。模拟、数据科学和生成式 AI 都依赖于它。不幸的是，令人眼花缭乱的工具让新手不知从何开始。我们将带您参观围绕加速 Python 编程的充满活力的社区和生态系统。探索各种工具、库和框架，这些工具、库和框架可实现 Python 中的高效计算和性能优化，包括 CUDA Python、RAPIDS、Warp 和 Legate。我们还将讨论与 PyData、PyTorch 和 JAX 社区的集成点。了解社区内的协作努力，包括推动加速计算创新的开源项目和贡献。我们将讨论利用这些框架来提高开发 AI 驱动应用程序和进行大规模数据分析的生产力的最佳实践。

使用 Google Cloud AI 超级计算机为大规模 AI 充电（由 Google Cloud 呈现）
Deepak Patil，Google Cloud 产品经理
Rajesh Anantharaman，Google Cloud 机器学习软件产品管理负责人

利用 Google Cloud AI 超级计算机（专为实现最大性能和效率而设计的超级计算架构）释放您大规模 AI 工作负载的潜力。在本次会议中，我们将深入探讨 Google Cloud 上 NVIDIA GPU 的 PyTorch 和 JAX 堆栈，并展示在 Google Cloud 上构建高性能基础模型的能力。

展望未来：AI 和图网络对金融分析未来的意义
Siddharth Samsi，NVIDIA 高级解决方案架构师
Sudeep Kesh，标普全球首席创新官

人工智能、智能体系统和图神经网络 (GNN) 正在为评估、监控和估计金融服务领域工作组合中的机遇和风险提供新的前沿。尽管许多这些技术仍在发展中，但组织渴望了解它们的潜力。了解标普全球和 NVIDIA 如何合作寻找学习和整合这些功能的实用方法，从预测公司债务发行到更深入地理解资本市场。我们将使用 PyTorch-Geometric 库和跨越三十年以及金融和非金融行业的发行数据集，展示市场数据的图表示。技术发展包括二分图的生成和链接预测 GNN 预测。我们将讨论数据预处理、管道、模型训练以及这些技术如何在日益复杂的世界中拓展能力。

使用 cuDNN 在 Blackwell 上释放深度学习性能
Yang Xu (企业产品)，NVIDIA 深度学习软件工程经理

自发布以来，cuDNN（一个用于 GPU 加速深度学习 (DL) 原语的库）一直在为会话式 AI、推荐系统和语音识别等领域的许多 AI 应用程序提供支持。cuDNN 仍然是 PyTorch、JAX、Tensorflow 等流行框架中 DL 原语的核心库，涵盖训练、微调和推理用例。即使在快速发展的生成式 AI 领域——无论是 Llama、Gemma 还是需要复杂 DL 原语（如 flash attention 变体）的专家混合变体——cuDNN 都为它们提供了动力。了解 cuDNN 中与 Blackwell 的微缩放格式相关的新/更新 API，以及如何针对这些 API 进行编程。我们将深入探讨如何利用其图 API 构建一些融合模式，例如矩阵乘法融合模式和最先进模型中的融合 flash attention。了解 cuDNN 中新的 CUDA 图支持（不要与 cuDNN 图 API 混淆）如何用于避免重建 CUDA 图，为使用真实世界框架的 CUDA 图捕获提供替代方案。

使用 Lightning AI 开源堆栈快速训练和部署 AI 系统（由 Lightning AI 呈现）
Luca Antiga，Lightning AI 首席技术官

了解 Lightning 堆栈如何涵盖从数据准备到部署的整个生命周期，并提供实用示例，尤其关注分布式训练和高性能推理。我们将展示专注于新功能的示例，例如通过 DTensors 支持多维并行，以及通过 torchao 进行量化。

与专家交流（互动环节）

与深度学习框架团队的专家会面
Eddie Yan，NVIDIA PyTorch 技术负责人
Masaki Kozuki，NVIDIA PyTorch 高级软件工程师
Patrick Wang (企业产品)，NVIDIA PyTorch 软件工程师
Mike Ruberry，NVIDIA 深度学习框架杰出工程师
Rishi Puri，NVIDIA 高级深度学习工程师兼 PyTorch Geometric 负责人

培训实验室

AI 及其他领域的内核优化：释放 Nsight Compute 的力量
Felix Schmitt，NVIDIA 高级系统软件工程师
Peter Labus，NVIDIA 高级系统软件工程师

了解如何利用 Nsight Compute 强大的性能分析和分析功能，充分发挥 NVIDIA GPU 的潜力。AI 工作负载正在迅速增加对 GPU 计算的需求，确保它们高效利用所有可用的 GPU 资源至关重要。Nsight Compute 是理解内核执行行为和性能的最强大工具。学习如何配置和启动根据您的需求定制的性能分析，包括有关分析加速 Python 应用程序、PyTorch 等 AI 框架以及优化 Tensor Core 利用率（对现代 AI 性能至关重要）的建议。了解如何调试您的内核并使用 Nsight Compute 内置的专家系统，称为“引导分析”，它会自动检测常见问题并将您引导至最相关的性能数据，一直到源代码级别。

改进检索：为特定领域 RAG 微调嵌入模型
Gabriel Moreira，NVIDIA 高级研究科学家
Ronay Ak，NVIDIA 高级数据科学家

LLM 驱动着会话式聊天机器人和内容生成器等 AI 应用程序，但受限于其训练数据。这可能导致内容生成中的幻觉，这需要最新或特定领域的信息。检索增强生成 (RAG) 通过使 LLM 能够访问外部上下文而无需修改模型参数来解决此问题。嵌入或密集检索模型是 RAG 管道的关键组件，用于向 LLM 检索相关上下文。然而，嵌入模型捕获自定义数据独特特征的有效性取决于其训练数据的质量和领域相关性。微调嵌入模型越来越受关注，以提供针对用户特定领域量身定制的更准确和相关的响应。

在此实验室中，您将学习如何从特定领域的语料库生成带有问答对的合成数据集，并处理数据以进行微调。然后，使用合成数据微调文本嵌入模型并对其进行评估。

海报展示

使用神经反向投影和视锥体重采样进行单视图 X 射线 3D 重建
Tran Minh Quan，NVIDIA 开发技术员

在医学新 AI 领域实现新颖应用：病理切片加速特征计算
Nils Bruenggel，罗氏诊断国际股份公司首席软件工程师

PyTorch 亮相 GTC 2025

扩展开源 AI：从基础模型到生态系统成功

PyTorch @ GTC

与专家交流（互动环节）

培训实验室

海报展示

文档

教程

资源

保持联系以获取更新、活动信息和最新新闻