案例研究

OpenSynth 如何使用 PyTorch 加速能源建模应用的计算

作者: 2025年5月14日2025年8月19日暂无评论

PyTorch Case Study LF Energy OpenSynth

OpenSynth 最近利用 PyTorch 改善了其用户和社区的体验。OpenSynth 是由 LF Energy 托管的一个开源社区,旨在实现合成能源需求数据的普及化。 

获取智能电表数据对于快速且成功地实现能源转型至关重要。研究人员、建模者和政策制定者需要了解能源需求状况是如何变化的,因为当今的电网系统需要对供需进行更高程度的实时优化。然而,当前的全球能源建模和决策制定主要仍基于过去静态且高度汇总的数据——在那个时代,能源呈单向流动,消费者画像相对可预测,且电力生产高度可控。

面临的主要挑战在于,由于隐私保护,对需求数据的访问受到严格限制。OpenSynth 认为,与其加入行业呼吁通过现有机制解锁原始智能电表数据(这涉及解决复杂的数据法规和智能电表立法问题),不如通过生成合成数据,这是实现全球范围内广泛获取智能电表数据集的最快途径。

该社区赋能原始智能电表(即需求)数据持有者,使其能够生成并共享合成数据和模型,供研究人员、行业创新者和决策者使用。 

PyTorch 允许 OpenSynth 社区利用 GPU 计算来加速运算并使用分布式训练。拥有多个 GPU 的终端用户可以将数据集拆分为多个较小的数据集进行并行计算,从而进一步提升计算速度。这使得训练规模能够扩展到比以往大得多的数据集。

商业挑战

Centre for Net Zero 是在将 OpenSynth 贡献给 LF Energy 之前最初开发该项目的非营利组织,他们还开发了一种名为 Faraday 的算法,OpenSynth 的用户可以通过该平台使用它来生成合成智能电表数据。Faraday 算法由两个组件组成:一个 自动编码器 (AutoEncoder) 模块 和一个 高斯混合模型 (Gaussian Mixture) 模块。 

Faraday 的高斯混合模型 (GMM) 最初是使用 scikit-learn 的实现 开发的。Scikit Learn 是数据科学家中常用的一个库,用于训练多种机器学习算法。然而,该实现在处理大型数据集时扩展性不佳,因为它仅支持 CPU(中央处理器)——不支持使用 GPU(图形处理器)进行加速计算。GPU 是一种性能更强大的芯片,执行数学运算的速度远快于 CPU,通常用于训练深度学习模型。 

此外,它也不支持任何形式的并行化。并行计算是指将原始数据集拆分为多个独立的较小数据集,在每个独立数据集上训练较小的模型,然后将这些较小模型合并成一个单一模型。 

因此,需要一种既支持并行计算又支持 GPU 加速的新实现方案。 

OpenSynth 如何使用 PyTorch

OpenSynth 社区最近将 Faraday 的 GMM 模块移植到了 PyTorch。这一重构方案取代了原本使用 scikit-learn 的实现,使得训练 GMM 时能够调用 GPU,从而显著提升了计算性能。

通过利用 PyTorch 强大的 GPU 能力,新的 GMM 模块现在能够处理规模大得多的数据集,并实现更快的计算速度。对于那些处理无法完全加载到内存中的超大规模数据集的从业者来说,这是一个极具价值的工具。此次更新使用户能够更高效地扩展其模型和流程,从而在能源建模应用中更快地获得洞察并提升结果质量。

来自 OpenSynth 的寄语

PyTorch LF Energy OpenSynth Case Study

“开源是推动变革的强大催化剂。我们的开放数据社区 OpenSynth 正在推动全球范围内合成能源需求数据的普及化——解锁了多种下游应用,从而加速能源系统的脱碳进程。PyTorch 拥有令人惊叹的开源生态系统,使我们能够利用分布式 GPU 为 OpenSynth 用户显著加速计算。如果没有这个开源生态系统,我们将无法实现这一变革,也会拖慢那些致力于推动净零行动者的步伐。” – Sheng Chai,Centre for Net Zero 高级数据科学家

了解更多

欲了解更多信息,请访问 LF Energy OpenSynth 网站