IBM 研究院如何使用 PyTorch 和 TerraTorch 让地理空间计算机视觉惠及每个人

基于地球观测的分析对于理解我们的星球正变得至关重要——从监测森林砍伐到追踪城市发展以及分析气候变化的影响。然而，将 AI 模型应用于卫星图像和地球观测数据所需的编码和深度学习技能传统上一直是许多从业者的主要障碍。

通过 IBM 研究院发布 TerraTorch 1.0（一个用于微调地理空间计算机视觉基础模型的 PyTorch 领域库），我们不仅使地理空间 AI 更易于访问，而且对更广泛的 PyTorch 社区来说也更具实用性。我们的目标：简化流程，让任何数据科学家、研究人员或爱好者都能轻松构建强大的地理空间模型，并且对 GPU 和数据处理要求较低。

基础模型的力量在于，即使去除了 75-95% 的输入数据，模型在输入数据重建方面也表现出色——从而在深层潜在空间中学习我们星球的底层物理原理。

商业挑战

我们的目标是消除阻碍人们大规模处理卫星图像、天气和气候数据的技术障碍。我们与 NASA 合作开发了 Prithvi 系列基础模型。使用 PyTorch 提供的简洁 API 整合 AI 研究的最新创新，促进了这项工作。

我们希望创建一个任何人都可以使用的框架，只需几个步骤即可从原始数据生成可用于推理的模型。

PyTorch 创建和微调的天气和气候基础模型如何用于天气预报

IBM 研究院如何使用 PyTorch

我们在 PyTorch 的基础上构建了 TerraTorch，利用其动态生态系统进行集成

PyTorch Lightning 用于简洁、可扩展的训练循环
TorchGeo 用于地理空间数据处理和转换（PyTorch 转换）
对于领先的生成式多模态基础模型 “Terramind”（由 IBM 和 ESA 联合开发）以及 “Prithvi”系列（由 IBM 和 NASA 联合开发）等基础模型，TerraTorch 已用于微调所有下游地理空间模型，用于卫星图像、天气和气候数据。它包括 IBM 作为 Granite 的一部分发布的一系列微调模型。此外，TerraTorch 还包括其他有趣的基础模型和生态系统组件，如 Clay、SatMAE、Satlas、DeCur 和 DOFA。
强大而先进的视觉 Transformer，可用于实验现代神经网络架构
TerraTorch-Iterate 构建于 PyTorch、Optuna、MLFlow 和 Ray Tune 之上，用于超参数优化 (HPO)、神经网络架构搜索 (NAS) 和基础模型基准测试 (GeoBench)，其中 TerraTorch 成为了参考实现。

微调和推理过程完全在一个 YAML 配置文件中描述。在那里，定义了模型的架构构建块（骨干、颈部、解码器、头部）。模型工厂使用内置和自定义注册表组装模型。此外，优化器和数据模块按配置中的定义创建。最后，所有内容都传递给 Lightning Trainer，由其执行任务。

凭借 PyTorch 的灵活性，我们能够快速原型设计、迭代模型架构，并为一系列地理空间应用部署管道——从洪水和生物量检测到提高气候数据分辨率，其中我们的一些工作成为了 IBM Granite 地理空间模型家族的一部分。

Prithvi-EO-2.0-600M 基础模型的架构，由 IBM 研究院与 NASA 共同开发。

用 PyTorch 解决 AI 挑战

PyTorch 帮助我们解决了三个主要挑战

易于实验：动态计算图、自动微分、CUDA 的完全抽象和丰富的可视化工具，使得测试不同的模型和训练策略变得简单。
可扩展性：借助 DDP、FSDP、PyTorch Lightning 和 TorchGeo，我们可以在大型数据集上训练模型，而无需担心基础设施。
社区支持：PyTorch 作为 AI 研究的实际标准，凭借其活跃的社区和出色的文档，使得克服障碍和了解 AI 研究的最新进展变得容易。

来自 IBM 研究院的话

“PyTorch 让我能够将复杂的线性代数和优化问题转化为易于访问、可供社区共享的解决方案。能够为任何对通过 AI 了解我们地球感到好奇的人构建和微调模型，这让我感到很有力量。”

—— Romeo Kienzler，IBM 瑞士苏黎世鲁施利肯研究院 AI 研究工程师

使用 PyTorch 的好处

使用 PyTorch 让我们能够

构建一个可重现的开源框架，用于微调地理空间基础模型
通过易于理解的笔记本、TerraTorch 配置文件、教程和 HuggingFace 上的模型检查点，与社区分享我们的工作
快速迭代基础模型架构，并部署微调模型进行推理，从研究到实际客户产品

了解更多

有关此项目的更多信息和探索代码，请访问

IBM 研究院如何利用 PyTorch 和 TerraTorch 让每个人都能使用地理空间计算机视觉