跳转到主要内容

DeepSpeed

DeepSpeed 助力开发者简化分布式训练和推理,从而更轻松高效地扩展人工智能模型,同时最大限度地降低成本和操作复杂性。

训练先进的深度学习模型极具挑战性。除了模型设计,模型科学家还需要设置最先进的训练技术,例如分布式训练、混合精度、梯度累积和检查点。然而,科学家可能仍然无法达到所需的系统性能和收敛速度。大型模型尺寸更具挑战性:纯数据并行下,大型模型很容易耗尽内存,并且难以使用模型并行。DeepSpeed 解决了这些挑战,以加速模型开发和训练。DeepSpeed 助力 MT-530B 和 BLOOM 等世界上最强大的语言模型。它是一个易于使用的深度学习优化软件包,为训练和推理提供前所未有的规模和速度。

DeepSpeed 由微软于 2025 年 1 月贡献给 Linux 基金会。