OpenSynth 最近利用 PyTorch 改善了其用户和社区的体验。OpenSynth 是一个由 LF Energy 托管的开源社区,旨在普及对合成能源需求数据的访问。
智能电表数据的访问对于快速成功的能源转型至关重要。研究人员、建模师和政策制定者需要了解在需要对电网供需进行更大程度实时优化的系统中,能源需求曲线是如何变化的。然而,当前的全球能源建模和政策制定仍然主要基于过去的静态和高度聚合的数据——那时能源单向流动,消费者模式相对可预测,发电高度可控。
主要挑战是,由于隐私保护,需求数据的访问受到高度限制。OpenSynth 认为,与其通过现有机制(解决当前数据法规和智能电表立法)加入行业呼吁解锁原始智能电表数据,不如生成合成数据是实现智能电表数据集全球广泛访问的最快方式。
该社区赋能原始智能电表(即需求)数据的持有者生成和共享可供研究人员、行业创新者和政策制定者使用的合成数据和模型。
PyTorch 允许 OpenSynth 社区使用 GPU 计算来加速计算并使用分布式训练。拥有多个 GPU 的最终用户可以将数据集拆分为多个较小的数据集以实现并行计算,从而进一步加速计算。这使得训练可以扩展到比以前大得多的数据集。
商业挑战
在 OpenSynth 贡献给 LF Energy 之前,最初开发 OpenSynth 的非营利组织 Centre for Net Zero 也开发了一种名为 Faraday 的算法,通过 OpenSynth 提供给其用户,可以生成合成智能电表数据。Faraday 算法包含两个组件:一个 自动编码器模块和一个 高斯混合模块。
Faraday 的高斯混合模型 (GMM) 最初是使用 scikit-learn 的实现来实现的。Scikit Learn 是数据科学家广泛使用的流行库,用于训练许多不同的机器学习算法。然而,该实现在大型数据集上扩展性不佳,因为它只支持 CPU(中央处理单元)——它不允许使用 GPU(图形处理单元)进行加速计算。GPU 是一种功能更强大的芯片,可以更快地执行数学运算,通常用于训练深度学习模型。
此外,它也不允许任何并行化。并行化计算意味着将原始数据集拆分为多个独立且较小的数据集,并在每个单独的数据集上训练较小的模型,然后将较小的模型组合成一个模型。
需要一种支持并行计算和 GPU 加速的不同实现。
OpenSynth 如何使用 PyTorch
OpenSynth 社区最近将 Faraday 中的 GMM 模块移植到 PyTorch。该模块最初使用 scikit-learn 实现,此次重新实现使得能够使用 GPU 训练 GMM,显著加速了计算性能。
通过利用 PyTorch 强大的 GPU 能力,新的 GMM 模块现在可以处理更大的数据集和更快的计算,使其成为处理无法放入内存的大型数据集的从业人员的宝贵工具。此次更新允许用户更高效地扩展其模型和流程,从而在能源建模应用程序中获得更快的洞察和改进的结果。
来自 OpenSynth 的寄语
“开源是变革的强大催化剂。我们的开放数据社区 OpenSynth 正在普及全球对合成能源需求数据的访问——解锁多种下游应用程序,从而加速能源系统的脱碳。PyTorch 拥有令人难以置信的开源生态系统,使我们能够使用分布式 GPU 显著加速 OpenSynth 用户的计算。如果没有这个开源生态系统,就不可能实现这一改变——并且会减缓那些寻求实现净零行动的努力。” – Sheng Chai,Centre for Net Zero 高级数据科学家
了解更多
欲了解更多信息,请访问 LF Energy OpenSynth 网站。