跳转到主要内容
社区

PyTorch 亮相 GTC 2025

作者: 2025 年 3 月 16 日2025 年 5 月 3 日暂无评论

GTC 将于 2025 年 3 月 17 日至 21 日重返圣何塞。加入 PyTorch 基金会成员 Arm、AWS、Google Cloud、IBM、Lightning AI、Meta、Microsoft Azure、Snowflake 以及成千上万的开发者,我们一起庆祝 PyTorch。共同学习人工智能和加速计算如何帮助人类解决我们最复杂的挑战。

使用 PyTorch 基金会GTC 注册折扣亲临现场,或通过免费注册在线观看

book cover

扩展开源人工智能:从基础模型到生态系统成功

聆听 PyTorch 基金会执行董事 Matt White 及来自加州大学伯克利分校、Meta、NVIDIA 和红杉资本的小组成员的分享,了解开源如何改变人工智能的发展,汇集来自工业界、学术界和风险投资界的专家,共同探讨协作式开源人工智能开发的技术和商业方面。他们将审视 PyTorch、vLLM、Ray 和 NVIDIA 的 NeMo 等开源项目如何加速人工智能创新,同时为企业和研究人员创造新的机会。他们将分享来自 PyTorch 开发、伯克利研究计划以及成功的人工智能初创公司的真实经验。您将获得关于开源人工智能技术和商业方面的宝贵见解。– 太平洋夏令时间 3 月 17 日,星期一,上午 10:00 – 11:00

PyTorch @ GTC

CUDA 的性能与 PyTorch 的灵活性
Mark Saroufim, 软件工程师, Meta Platforms

本次演讲将探讨 PyTorch 用户如何也正在成为 CUDA 开发者。我们将从 eager 模式中的激励性例子、torch.compile 的推出以及近期内核库(kernel zoos)的趋势开始。我们将分享如何在 torchao 和 torch.compile CUTLASS 后端中集成低比特矩阵乘法的细节。我们还将讨论如何在 PyTorch 中定义、构建和打包您自己的自定义操作,以便在保持 PyTorch 灵活性的同时获得 CUDA 的原始性能。

让我的 PyTorch 模型变快,并告诉我你是怎么做到的
Thomas Viehmann, 首席研究工程师, Lightning AI
Luca Antiga, 首席技术官, Lightning AI

PyTorch 因其丰富的表达能力和易用性在深度学习和大型语言模型中广受欢迎。为了充分利用计算资源,PyTorch 模型需要进行复杂的优化,但这可能意味着失去其简便性和可理解性。了解如何通过 Thunder(一个专注于可用性、可理解性和可扩展性的 PyTorch-to-Python 编译器)来优化和转换模型(例如,跨多台机器分发),同时:• 保持 PyTorch 代码不变 • 适用于各种模型,无需为每个模型进行调整 • 理解每个转换步骤,因为结果以简单的 Python 代码呈现 • 只需一两行代码即可访问强大的扩展代码进行您自己的优化。我们将展示 Thunder 转换与 NVIDIA 堆栈(NVFuser、cuDNN、Apex)的结合如何在各种模型的训练和推理中提供优化的性能。

FlexAttention:PyTorch 的灵活性与 FlashAttention 的性能
Driss Guessous, 机器学习工程师, Meta Platforms

隆重推出 FlexAttention:一种新颖的 PyTorch API,它支持用户自定义的注意力机制,性能可与最先进的解决方案相媲美。通过利用 PyTorch 编译器堆栈,FlexAttention 支持在 SDPA 中动态修改注意力分数,并通过与 FlashAttention 算法的内核融合实现运行时和内存效率。我们在 A100 GPU 上的基准测试表明,FlexAttention 在前向传播中达到 FlashAttention2 性能的 90%,在后向传播中达到 85%。在 H100 GPU 上,FlexAttention 的前向性能平均为 FlashAttention3 的 85%,比 FlashAttention2 快约 25%,而后向性能平均为 FlashAttention3 的 76%,比 FlashAttention2 快约 3%。探索 FlexAttention 如何在接近最先进性能与无与伦比的灵活性之间取得平衡,使研究人员能够在不牺牲效率的情况下快速迭代注意力机制。

让你的 GPU 持续高速运转:消除模型训练中的空白时间
Syed Ahmed, 高级软件工程师, NVIDIA
Alban Desmaison, 研究工程师, Meta
Aidyn Aitzhan, 高级软件工程师, NVIDIA

模型训练的计算密集型部分最近取得了重大进展,例如高性能的注意力变体。虽然这些进展非常宝贵,但也暴露了模型训练中先前隐藏的瓶颈,例如集合通信期间的冗余拷贝和数据加载时间。我们将介绍 Meta/NVIDIA 合作在 PyTorch 中取得的最新改进,以解决这些新暴露的瓶颈,以及从业者如何利用它们。

加速 Python:社区与生态系统
Andy Terrel, CUDA Python 产品负责人, NVIDIA
Jeremy Tanner, 开源项目, NVIDIA
Anshuman Bhat, CUDA 产品管理, NVIDIA

Python 无处不在。模拟、数据科学和生成式 AI 都依赖于它。不幸的是,令人眼花缭乱的工具阵列让新手不知从何入手。我们将带您领略加速 Python 编程周围充满活力的社区和生态系统。探索各种工具、库和框架,它们可以在 Python 中实现高效计算和性能优化,包括 CUDA Python、RAPIDS、Warp 和 Legate。我们还将讨论与 PyData、PyTorch 和 JAX 社区的集成点。了解社区内的协作努力,包括推动加速计算创新的开源项目和贡献。我们将讨论利用这些框架提高开发 AI 驱动应用和进行大规模数据分析生产力的最佳实践。

利用 Google Cloud AI hypercomputer 为大规模 AI 增压(由 Google Cloud 呈现)
Deepak Patil, 产品经理, Google Cloud
Rajesh Anantharaman, 机器学习软件产品管理负责人, Google Cloud

利用 Google Cloud AI Hypercomputer——一种为实现最高性能和效率而设计的超级计算架构,释放您大规模 AI 工作负载的潜力。在本次会议中,我们将深入探讨 Google Cloud 上运行于 NVIDIA GPU 的 PyTorch 和 JAX 堆栈,并展示在 Google Cloud 上构建高性能基础模型的能力。

展望未来:人工智能和图网络对金融分析的未来意味着什么
Siddharth Samsi, 高级解决方案架构师, NVIDIA
Sudeep Kesh, 首席创新官, S&P Global

人工智能、智能体系统和图神经网络(GNN)正在为评估、监控和估算金融服务领域工作组合中的机会和风险提供新的前沿。尽管许多这些技术仍在发展中,但组织渴望了解其潜力。了解 S&P Global 和 NVIDIA 如何合作寻找学习和集成这些能力的实用方法,从预测公司债券发行到更深层次地理解资本市场。我们将使用 PyTorch-Geometric 库和跨越三十年、涵盖金融和非金融行业的发行数据集,展示市场数据的图表示。技术发展包括生成二分图和链接预测 GNN 预测。我们将探讨数据预处理、管道、模型训练,以及这些技术如何在一个日益复杂的世界中拓展能力。

使用 cuDNN 在 Blackwell 上解锁深度学习性能
Yang Xu (企业产品), 深度学习软件工程经理, NVIDIA

自发布以来,cuDNN(一个用于 GPU 加速深度学习(DL)基元操作的库)一直为对话式 AI、推荐系统和语音识别等领域的许多 AI 应用提供动力。cuDNN 仍然是 PyTorch、JAX、Tensorflow 等流行框架中 DL 基元的核心库,涵盖训练、微调和推理用例。即使在快速发展的生成式 AI 领域——无论是 Llama、Gemma,还是需要复杂 DL 基元(如 flash attention 变体)的专家混合模型——cuDNN 都在为它们提供支持。了解与 Blackwell 微缩放格式相关的 cuDNN 新/更新 API,以及如何针对这些 API 进行编程。我们将深入探讨如何利用其图 API 构建一些融合模式,例如来自最先进模型的 matmul 融合模式和融合 flash attention。了解 cuDNN 中新的 CUDA 图支持(不要与 cuDNN 图 API 混淆)如何被利用来避免重建 CUDA 图,为 CUDA 图捕获提供一种替代方案,并适用于真实世界的框架使用。

使用 Lightning AI 开源堆栈快速训练和部署 AI 系统(由 Lightning AI 呈现)
Luca Antiga, 首席技术官, Lightning AI

了解 Lightning 堆栈如何通过实际示例覆盖从数据准备到部署的整个生命周期,并特别关注分布式训练和高性能推理。我们将展示的示例重点关注新功能,例如通过 DTensors 支持多维并行,以及通过 torchao 进行量化。

与专家交流(互动环节)

与深度学习框架团队的专家会面
Eddie Yan, PyTorch 技术负责人, NVIDIA
Masaki Kozuki, PyTorch 高级软件工程师, NVIDIA
Patrick Wang (企业产品), PyTorch 软件工程师, NVIDIA
Mike Ruberry, 深度学习框架杰出工程师, NVIDIA
Rishi Puri, 高级深度学习工程师兼 PyTorch Geometric 负责人, NVIDIA

培训实验室

AI 及其他领域的内核优化:释放 Nsight Compute 的力量
Felix Schmitt, 高级系统软件工程师, NVIDIA
Peter Labus, 高级系统软件工程师, NVIDIA

学习如何利用 Nsight Compute 强大的分析和性能剖析功能,释放 NVIDIA GPU 的全部潜力。AI 工作负载正迅速增加对 GPU 计算的需求,确保它们高效利用所有可用的 GPU 资源至关重要。Nsight Compute 是理解内核执行行为和性能的最强大工具。学习如何配置和启动为您量身定制的性能剖析,包括有关分析加速的 Python 应用、像 PyTorch 这样的 AI 框架,以及优化对现代 AI 性能至关重要的 Tensor Core 利用率的建议。学习如何调试您的内核,并使用 Nsight Compute 内置的专家系统,即“引导式分析”,它能自动检测常见问题,并将您引导至最相关的性能数据,一直到源代码层面。

改进检索:为特定领域的 RAG 微调嵌入模型
Gabriel Moreira, 高级研究科学家, NVIDIA
Ronay Ak, 高级数据科学家, NVIDIA

大型语言模型(LLM)为对话式聊天机器人和内容生成器等 AI 应用提供动力,但受限于其训练数据。这可能导致在需要最新或特定领域信息的内容生成中出现幻觉。检索增强生成(RAG)通过使 LLM 能够访问外部上下文而无需修改模型参数来解决此问题。嵌入模型或密集检索模型是 RAG 管道中为 LLM 检索相关上下文的关键组成部分。然而,嵌入模型捕捉自定义数据独特特征的有效性取决于其训练数据的质量和领域相关性。微调嵌入模型正引起越来越多的兴趣,以便为用户的特定领域提供更准确和相关的响应。

在本实验中,您将学习如何从特定领域的语料库中生成带有问题-上下文对的合成数据集,并处理数据以进行微调。然后,使用合成数据微调一个文本嵌入模型并对其进行评估。

海报展示

使用神经反向投影和视锥重采样的单视图 X 射线 3D 重建
Tran Minh Quan, 开发者技术专家, NVIDIA

在医学新 AI 领域中实现新应用:病理切片的加速特征计算
Nils Bruenggel, 首席软件工程师, Roche Diagnostics Int. AG