在大型语言模型 (LLM) 的训练后阶段扩展强化学习 (RL) 向来极其困难。虽然在单个 GPU 或节点上运行 RL 相对简单,但当扩展到数百个 GPU 时,复杂性会急剧增加。基础设施挑战(如分布式协调、稳定性、可重复性和验证)往往成为瓶颈,阻碍了研究进度,并限制了团队迭代的速度。
为解决此问题,Meta 的 PyTorch 团队近期开源了 torchforge,这是一个原生于 PyTorch 的强化学习库,旨在显著降低大规模训练后任务的难度。通过与斯坦福大学和 CoreWeave 合作,我们在 512 个 GPU 的集群上对 torchforge 进行了实战测试,以现有工具几乎无法实现的速度和规模运行了 GRPO(跳转至代码)。最终成果:精简的设置流程、稳定的训练表现,以及从创意到实验的清晰路径。
本篇博文将深入探讨 torchforge 如何简化强化学习基础设施,此次与斯坦福大学和 CoreWeave 的合作如何促成了大规模实验,以及我们在数百个 GPU 上使用 Weaver(一种旨在解决大语言模型中生成与验证之间差距的弱验证器系统)作为验证器所学到的经验。我们还将分享相关结果、实践洞察,以及为希望扩展自身强化学习训练后工作流的研究人员提供建议。
摘要
我们针对 Qwen3-8B-Base 和 Qwen3-32B-Base 两种模型规模评估了强化学习训练后表现,并对比了三种奖励方法:
- 单一奖励模型 (RM)(无标注):使用单个奖励模型进行训练
- Weaver(无标注):使用 Weaver 的聚合验证器集成进行训练
- 带标注训练样本:使用真实标签的 Oracle 上界
在 Math、GPQA 和 MMLU Pro 上的主要发现

Forge + Weaver 的组合构建了一套研究界此前无法获得的完整强化学习基础设施,让我们了解一下:
- Forge:提供原生于 PyTorch 的强化学习原语,无需复杂的底层基础设施即可从单节点扩展至多节点集群。
- Weaver:提供生产级的奖励信号,无需人工标注或昂贵的 API 调用。
- Monarch:协调分布式任务,具备自动故障容错能力。
总之,这一技术栈使得在具有挑战性的推理基准测试中,进行能够显著提升性能的 RLVR(基于验证器奖励的强化学习)规模化运行变得切实可行。研究人员现在可以迭代奖励设计、策略更新和验证策略,而无需从头重构分布式系统。
torchforge:用于 LLM 的可扩展强化学习平台
torchforge(“Forge”) 是一个原生于 PyTorch 的库,专为可扩展的强化学习训练后任务和智能体开发而设计,让研究人员能够专注于强化学习算法本身,而非底层架构。它将强化学习表达为简洁、类似伪代码的原语,同时在 GPU 集群上无缝扩展,并支持各种异步程度,从完全同步的 PPO 到完全异步的离线策略训练均可支持。Forge 基于成熟的分布式基础构建,将基础设施与算法解耦,使团队能够快速迭代奖励设计、策略更新和智能体工具,而无需担心重分片逻辑、权重同步难题或训练代码中的控制平面编排。
在底层,torchforge 组合了一系列生产级组件生态系统——用于分布式协调与故障容错的 Monarch、用于快速内存权重与张量同步的 TorchStore、用于高吞吐量推理的 vLLM 以及用于可扩展训练的 TorchTitan——将其整合为一个具有清晰服务抽象的统一强化学习技术栈。
核心特性
- 原生 PyTorch,伪代码风格的 强化学习 API → 像在白板上构思一样编写算法,而 Forge 会处理资源分配、同步和故障恢复,让您专注于研究而非底层维护。
- 灵活的同步机制(同步 PPO ↔ 完全异步离线策略) → 无需改动 rollout(采样)逻辑即可切换协调模式;在不同训练范式下重用同一套强化学习代码。
- Monarch 服务抽象,提供简单的资源规格和如 route() 和 fanout() 等动词,实现简洁的扩展、负载均衡、按需广播以及通过 Sticky Sessions(粘性会话)保持状态,且无需在强化学习代码中编写重试逻辑,具备自动容错能力。
- 解耦的控制平面与数据平面(Monarch + TorchStore)→ 服务负责路由/生命周期编排,而 TorchStore 执行 RDMA 加速的 DTensor 原生张量移动;GPU 持续生成内容的同时进行权重同步,消除同步阻塞并提升吞吐量。
- TorchStore 内存感知拓扑的权重同步 → 高效快速的重分片和张量 IO;将训练与生成解耦,实现跨节点和集群的真正异步流水线。
- 端到端验证组件 → 使用 vLLM 实现高吞吐量推理(PagedAttention、连续批处理),使用 TorchTitan 实现可扩展训练(FSDP、流水线/张量并行),无需定制集成工作即可实现更高效率。
- 异构、瞬时扩展 → 独立扩展策略推理、奖励模型和仅 CPU 工具;随作业启动环境,作业结束即销毁,无需额外的 Kubernetes 部署。
- 简单集成自定义奖励与验证器(例如 Weaver)→ 快速采用 RLVR 风格模式和新目标信号,无需为每个验证器单独构建基础设施。
- 设计健壮、可重复的流水线 → 算法逻辑与基础设施的清晰分离、一致的协调模式(同步或异步)以及自动故障处理,减少了系统的不稳定性,加快了迭代速度。
- 通过一流的环境和工具实现智能体扩展性 → 从沙盒代码执行开始,逐步扩展至更丰富的“Open Environments”集成,以支持复杂的智能体工作流和模拟。

从 Weaver 到 Forge:推理实验的验证器
在 LLM 的强化学习中,验证器充当了 奖励函数——这是告诉模型哪些生成结果优良、哪些需要改进的关键信号。Weaver 在强化学习流水线中的作用:
- 奖励信号提供者:评估模型输出候选者,并根据正确性概率提供标量奖励。
- 实现 RLVR(基于验证器奖励的强化学习):允许在没有昂贵人类偏好数据的情况下进行强化学习训练。
- 扩展至复杂推理:在数学证明和科学推理等简单字符串匹配无法发挥作用的任务中提供可靠信号。
- 过程级反馈:能够评估中间推理步骤,而不仅仅是最终答案。
验证器是强化学习循环的核心部分,有许多手动、启发式和算法方法可以整合到该循环中。为了在 CoreWeave 上进行大规模实验,我们选择了 Weaver 作为首选框架。
什么是 Weaver?
Weaver 是一种弱验证器系统,旨在弥合大语言模型中的 生成-验证差距。它解决的核心问题是:LLM 往往能生成正确答案,但难以可靠地识别其响应中哪些确实是正确的。该系统基于一个原则,即 多样的验证器能提供互补的正确性信号。该项目证明了你不需要完美的验证器,只需要一种智能的方式来组合不完美的验证器。
Weaver 不依赖昂贵的前沿模型或大规模人工标注,而是采取了完全不同的方法:它聚合多个更小、较弱的验证器(如奖励模型和 LM 判别器)来创建一个强大的验证引擎。就像陪审团制度一样——单个验证器可能存在噪声或偏差,但它们的共同一致性模式能揭示哪些答案是真正正确的。
- 自动化:消除了持续的人工标注,降低了对昂贵前沿模型 API(如以 GPT-4 作为评判)的依赖。
- 可扩展:蒸馏后的 400M Weaver 模型每秒可验证数千个生成结果,支持高吞吐量强化学习,即在每个查询中生成 100+ 个候选者,并与 Forge 等分布式基础设施无缝集成。
- 可靠:统计聚合降低了单验证器的偏差,提供了校准的置信度分数(不仅仅是二元的接受/拒绝),并能在不同推理领域推广——防止奖励欺诈、质量误判,并避免了对海量人类反馈数据集的需求。
为了在大规模环境下验证完整流水线,我们在 MATH500、GPQA Diamond 和 MMLU Pro 上进行了评估,表现与前沿模型(o3-mini)相当。该系统无需标注数据即可训练,通过验证器一致性信号从弱监督中学习。在部署时,我们将集成模型蒸馏为一个紧凑的 400M 参数模型,在保留集成模型 98.7% 的准确率的同时,将推理计算量减少了 99.97%。有关 Weaver 方法论的更多信息,请查看 博客文章 和 NeurIPS 2025 论文。

基于 Weaver 评分的基准测试
使用基于 Weaver 的奖励进行训练在数学、科学和推理任务中表现出显著改进。我们针对 Qwen3-8B-Base 和 Qwen3-32B-Base 两种模型规模评估了扩展行为,并对比了三种奖励方法:
- 单一 RM(无标注):使用单个奖励模型进行训练
- Weaver(无标注):使用 Weaver 的聚合验证器集成进行训练
- 带标注训练样本:使用真实标签的 Oracle 上界

在 Math、GPQA 和 MMLU Pro 上的主要发现
我们的流水线在所有基准测试和两种模型规模上均显著优于单一奖励模型:
-
- 在 Qwen3-8B 上:我们使用 Weaver 的流水线在 GPQA 上填补了 63% 的单一 RM 与带标注训练之间的差距,在 MATH-500 上填补了 65%,在 MMLU Pro 上填补了 50%。
- 在 Qwen3-32B 上:Weaver 在 GPQA 上填补了 54% 的差距,MATH-500 上填补了 44%,MMLU Pro 上填补了 35%。
- 无需人工标注:Weaver 仅使用无标签的验证器一致性模式即可实现这些增益。
- 一致的扩展行为:Weaver 相较于单一 RM 的优势在 8B 和 32B 模型上均成立,证明了弱验证器聚合无论基准模型能力如何均具有价值。
- 缩小验证差距:在 MATH-500 上,Weaver 在 8B 模型上达到 77.5% 的准确率(与带标注结果相差仅 5.8 个点),在 32B 模型上达到 82.9%(与带标注结果相差 7.1 个点)——大大缩小了与全监督训练的差距。
- 生产级基础设施成果
- Meta 与斯坦福大学关于 Forge 的合作将这一技术栈在 CoreWeave 的 512 GPU 集群上推向了极限,实现了可靠性和性能指标,架起了学术研究与生产 AI 系统之间的桥梁。
- 大规模可靠性
- 零硬件故障,在数百小时的持续训练中表现稳定。
- >90% 的作业完成率,无需人工干预——Monarch 的自动故障恢复机制透明地处理了瞬时失败。
- 效率提升
- 4 倍迭代速度提升:相较于其他开源强化学习框架,通过将生成、验证和训练解耦,单步时间从 6 分钟缩短至 1.5 分钟。
- >65% 的 GPU 利用率:高效的调度最大限度地减少了空闲时间,尽管存在复杂的多阶段强化学习负载。
- 高吞吐量验证:Weaver 的蒸馏模型实现了每个查询 100 个生成结果的评估,且未成为系统瓶颈。


在 CoreWeave 上扩展强化学习
我们使用 NVIDIA Quantum InfiniBand 的 CoreWeave Kubernetes Service (CKS) 集群对 Forge 和 Weaver 进行了端到端验证。大规模强化学习需要编排独立的堆栈、管理分片并高效传输权重。CoreWeave 通过其 Slurm-on-Kubernetes (SUNK) 产品为 Forge 和 Weaver 提供了理想环境。
通过 torchx SLURM 调度器,Forge 能够调度强化学习训练循环中使用的所有必要负载和服务,同时利用 CoreWeave 的节点健康监控和自动化功能。SUNK 透明地管理了保证负载最优化放置所需的所有网络拓扑元数据。这种工程集成确保了基础设施的无缝性,使研究人员能够完全专注于强化学习算法、奖励设计和环境。
通过最大限度地减少基础设施顾虑并提供可靠的调度器,
- Forge 和 SUNK 在后台处理扩展、路由、负载均衡和故障容错。
- 这直接转化为更快的作业启动速度和更高的端到端吞吐量,满足了 RLVR(基于验证器奖励的强化学习)所需的大规模异步采样和训练循环。
入门
- 获取 Forge 的途径(GitHub 仓库,文档,Discord)。
- 如何在您的强化学习实验中使用 Weaver 作为验证器。
- 部署 Monarch 以进行分布式训练的资源。
- 在大规模运行 Forge 的指南,包括在 CoreWeave 等云集群上。
行动号召:与我们共建
- LLM 推理的未来在于可扩展的验证,而不仅仅是更大的模型。我们很高兴看到社区利用这些工具构建出什么。
在 SUNK 上使用 torchforge:在 CoreWeave 上上手 Forge。
-
- 我们欢迎您的贡献
- 新验证器:在 OpenEnv 上分享针对不同领域的奖励模型、LM 判别器或专用批评器,可用于 Weaver 或其他 RLVR 方法!
- 新型强化学习算法:在 Forge 灵活的原语基础上实现您自己的策略更新规则。
- 扩展实验:在新的基准测试上运行 Weaver,并报告有效(或无效!)的结果。
- 基础设施改进:帮助优化数据平面、改进容错能力或添加新的服务抽象。
- 加入讨论
- 在 GitHub 上提交问题、错误报告或功能请求。
- 分享您的结果——我们正在构建一个关于哪些验证策略最有效的社区知识库。
- 与我们协作,将此技术栈扩展到智能体工作流、代码生成等领域。
- 让我们一起继续缩小生成与验证之间的差距!