当前位置：首页 > news >正文

阿里巴巴ROLL：大规模强化学习优化的高效易用解决方案

news 2025/8/28 14:59:08

阿里巴巴ROLL：大规模强化学习优化的高效易用解决方案

在强化学习（RL）推动大语言模型（LLM）发展的浪潮中，训练框架面临效率、扩展性和易用性的多重挑战。阿里巴巴推出的 ROLL 框架，通过模块化设计与关键技术创新，为大规模 RL 优化提供了高效且用户友好的解决方案，特别是针对agentic rl进行了特有的工程设计，一起来深入了解这一创新性成果吧！

论文标题
Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library

来源
https://github.com/alibaba/ROLL

PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「亚里随笔」即刻免费解锁

研究背景与现有挑战

RL 在 LLMs 领域的应用突破与发展现状

强化学习（RL）在大语言模型（LLMs）领域的应用已取得显著成功，其中以人类反馈强化学习（RLHF）为典型代表，该技术率先推动了 LLMs 在参考对齐、推理增强及agent tool use等方面的技术发展。众多领先 LLMs 如 OpenA1I o4、QwQ、Seed1.5-thinking 和 Deepseek-R1 等，均借助 RL 在编码、数学问题求解及工具应用等一系列 AI 任务中实现了卓越性能。

现有 LLM 的 RL 优化算法主要包含三大范式：

人类反馈强化学习（RLHF）：早期通过直接从人类奖励中学习、从动作建议中学习或从动作批评中学习等方式，引导 LLMs 符合人类偏好。
可验证奖励强化学习（RLVR）：在数学、代码等推理任务中，通过规则验证、沙盒执行等方式判断结果正确性，以获取可验证的奖励信号。
多轮agent交互强化学习：针对更真实的agent场景，如管理终端、遍历网页界面等，LLM agent需执行一系列动作来完成任务，近期如火如荼的LLM Tool RL也是多轮交互的特例。

现有 RL 训练框架面临的核心挑战

多模型与多阶段流程的协同管理难题

标准 RL 训练工作流程通常涉及 Actor、Critic、Ref 和 Reward 四大模型，每个训练迭代包含生成、推理和训练三个阶段。以生成阶段为例，Actor模型需基于批量输入提示生成响应，在agentic RL 场景下还需与环境进行多轮交互；推理阶段则依赖 Critic、Ref 和 Reward 模型对生成的响应进行评估，计算监督信号或奖励估计；训练阶段再依据推理阶段获得的奖励信号，对 Actor 和 Critic 模型的参数进行更新。这种多模型、多阶段的训练范式，对系统的协调管理能力提出了极高要求。

效率、可扩展性与可用性的三重瓶颈

尽管已有 Harper 等人（2025）、Hu 等人（2024）等提出了多种系统框架，但大多采用单一控制器、 colocatioin（ colocatioin 指将不同阶段的 LLM 放置在同一资源池）或分离架构等经典系统设计方法，这些方法在实际应用中仍存在明显不足。例如，在大规模 GPU 集群中进行训练时，现有框架难以高效利用异构硬件资源，导致训练效率低下；当模型规模扩大到数百亿参数级别时，可扩展性问题凸显，训练过程容易因资源分配不合理而中断；同时，复杂的系统架构也增加了用户的使用门槛，难以满足不同用户群体对灵活控制训练工作流的需求。

Agentic RL 场景下的特殊挑战

在多轮agent交互场景中，环境执行速度缓慢、从动作中获取奖励反馈困难，以及环境与 LLMs 之间复杂的交互关系，共同构成了 RL 优化应用于 LLMs 的重大挑战。例如，在网页界面遍历等任务中，LLM agent需要与环境进行多轮交互，每一轮交互都可能涉及大量的 CPU 资源消耗，而现有框架往往无法高效处理这种复杂的交互逻辑，导致训练效率大幅下降。

强化学习（RL）在推动大语言模型（LLMs）发展中取得显著成功，促使高效 RL 训练框架不断发展。然而，这些框架需要协调管理多个模型和多阶段流程，在效率、可扩展性和可用性方面面临挑战。阿里巴巴推出 ROLL框架，这是一个专为大规模学习的强化学习优化设计的高效、可扩展且用户友好的库，旨在应对这些挑战。

针对不同用户群体的核心特性

Tech Pioneer

对于追求在LLM社区中领先地位并拥有大规模GPU集群的Tech Pioneer，ROLL具有以下优势：

快速且具成本效益：充分利用高性能硬件资源，加速RL训练，大幅降低训练成本和时间。
可扩展性与容错性：支持广泛的LLM训练和服务优化技术，能够在数千个GPU上对总参数超过200B的混合专家（MoE）模型进行持续约两周的训练而不中断，并具有高效的检查点和恢复机制。
灵活的硬件使用：支持在各种硬件类型上运行RL训练，用户可以选择 colocatioin或分离架构，并配置同步或异步执行模式，充分利用不同硬件架构的优势。

Product Developer

Product Developer拥有足够的GPU来为内部LLM进行RL训练，他们关注于配置任务和奖励以增强LLM的人类对齐、推理能力、工具使用和业务指标。ROLL为他们提供了：

多样化且可扩展的奖励/环境：实现了一组全面的reward worker和environment worker，开发者可以在现有实现的基础上轻松自定义自己的奖励和环境。
复合的sample-reward路由机制：提供用户友好的api来控制不同任务的prompt采样比例，并动态将每个样本路由到相应的reward worker，使开发者能够优化模型在混合领域任务中的性能。
轻量级的device-reward mapping：方便的device-reward mapping，便于配置reward worker的device mapping，将奖励计算与LLM多任务RL训练中的其他计算工作负载隔离，防止干扰和性能瓶颈。
丰富的训练设置：提供各种开箱即用的RL算法、LLM、任务和数据集，减少开发新训练功能所需的工程工作量。
卓越的性能：包含一组经过调优的训练配置，在许多任务上都能达到令人满意的性能，减轻了繁琐的超参数搜索负担。

Algorithm Researcher

大多数算法研究者只能使用有限数量的GPU，他们需要对LLM的RL训练的每个组件进行灵活、细粒度的控制，以便高效地实验新想法。ROLL非常适合这一目的，提供了以下关键功能：

受限设备执行：通过一组内存优化技术，包括单GPU设置，实现了在受限GPU资源上的高效训练，使算法研究者能够在不需要大量高级GPU的情况下进行多次试错实验并获得及时反馈。
可插拔的训练pipeline：以适当的粒度抽象RL训练pipeline的每个阶段，实现新想法的敏捷实验。研究者可以灵活地编排各个阶段的执行，便于实现和自定义各种RL算法。
透明的实验：提供透明的日志记录和监控功能，便于跟踪和分析每个实验。
公平的学术基线：提供经典算法、模型和任务，便于在标准基准上进行公平的基线比较。

Specifications for Agentic RL

随着Agentic RL的兴起，ROLL配备了以下功能，以实现可扩展的Agentic RL训练：

可扩展的多轮agent-env交互：受RAGEN启发，支持agent与env之间的多轮交互，可扩展到长周期任务。
样本级可扩展环境：可以方便、灵活地进行env scaling，用户可根据env负载情况灵活扩展env的数据，采样足够的训练轨迹，实现高吞吐量的rollout。
异步并行的agent-env交互：通过样本级环境管理，env粒度上执行env step和Actor geneate。通过env scaling实现并行环境执行，减少GPU空闲时间，最大化资源利用率。

这一特性应该是社区目前强烈需要的了，借助异步并行可扩展的env采样，可将目前的多轮工具调用/game通过统一的env范式描述，且保持了异步并行高效。

框架设计

系统架构与模块

如图2a所示，ROLL的架构以用户定义的RL数据流图及其关联配置作为输入。基于该输入，分布式执行器和调度器对工作器（Worker）和调度器进行编排。AutoDeviceMapping模块管理资源池中的资源，并将工作器和调度器高效绑定至分配的资源。

Parallel Worker：Parallel Worker是一组资源（即Ray中的PlacementGroup）的所有者。ROLL使用Cluster表示RL训练中具有相同角色（如ActorTrain、CriticInfer Model）的Parallel Worker集合，以简化对这些Worker的集中管理。ROLL提供多种类型的Parallel Worker：Actor Worker可实例化为ActorTrain/ActorInfer/Ref；Critic Worker实现Critic功能；Reward Worker计算奖励，支持rule-based verification、sandbox execution和LLM as Judge等多种奖励计算方法；Environment Worker支持各类环境与LLM的多轮交互。
Parallel Strategy：ROLL的RL训练涵盖训练、推理和生成阶段。通过集成MegatronCore和DeepSpeed，ROLL支持包括DP、TP、PP、CP、EP在内的高级5D并行策略。此外，借助DeepSpeed，ROLL还支持ZeRO2、ZeRO3和ZeRO-offload等技术，并提供梯度检查点和卸载策略以降低GPU内存消耗，实现资源受限设备上的高效执行。对于推理和生成阶段，ROLL集成vLLM和SGLang，以加速TP、EP和PP等并行计算。ROLL将训练、推理加速框架统一在Stratey层，默认实现下，用户可通过配置一键切换不同的train和infer backend，不涉及worker层面如loss代码的修改。Worker根据配置需要构造对应的Strategy即可开箱即用megatron/deepspeed/vllm/sglang engine。当然Worker内也可以自行初始化backend，实现对deepspeed/megatron更细粒度的直接控制。ROLL Stratey的设计解耦了Worker层面的用户计算和backend层面的工程优化，期望能为不同使用需求的用户提供更好的使用体验。下图描述了Cluster/Worker/Strategy的层级关系，以一个统一的视角对待各backend，各backend可独立开展工程优化。

Rollout Scheduler：Rollout Scheduler允许用户在生成阶段以单个样本为粒度调度每个请求的生命周期，可根据当前资源可用性(actor infer的负载)和响应生成进度动态添加或中止请求。当然直接调用actor.generate即可使用原始的batch dp的方式完成rollout。用户可根据需要使用。
Data Transfer：ROLL复用了HybridFlow中引入的传输协议（Transfer Protocol），以在不同阶段对输入输出数据进行重新分片。ModelUpdateGroup通过NCCL通信后端实现训练与生成/推理阶段之间的参数快速同步，即使在 actor_train/infer colocatioin训练场景中也能高效运行。
AutoDeviceMapping：AutoDeviceMapping模块协调ResourcePool中的CPU和GPU资源，并将其绑定至Worker。ResourcePool在ray 的placement_group和bundle的基础上，实现了灵活方法的将Worker指定放置到特定GPU的功能。

系统工作流程

运行时设置

ROLL根据提供的设备配置准备包含GPU和CPU资源的资源池。在RL dataflow的引导下，创建Rollout Scheduler和多个Parallel Worker。Rollout Scheduler负责管理生成阶段每个prompt样本请求的生命周期。根据训练和模型配置，ROLL实例化Parallel Strategy，以确定每个Parallel Worker的并行策略和执行后端。Parallel Worker创建完成后，ROLL按照用户指定的设备映射配置，通过AutoDeviceMapping从资源池为各Parallel Worker分配资源。

训练迭代

在生成阶段，首先通过Rollout Scheduler采集rollout batch size数量的responses。在此过程中，Actor模型可能与Environment Worker交互，在agentic rl任务中执行多轮环境交互，并调用Reward Worker计算奖励信号。支持动态采样过滤等高级采样技术。推理阶段涉及Critic、Reward和Ref模型的前向传播（若RL dataflow中激活），传输协议将生成阶段的响应分片并输入至各激活的Parallel Worker。训练阶段中，Critic和Actor模型利用生成阶段的样本和推理阶段的奖励信号更新参数，Actor模型还通过ModelUpdateGroup在后续迭代中与生成阶段同步参数。

关键功能的技术支撑

Single-Controller Pipeline：ROLL遵循HybridFlow的混合编程模型，在单一控制器内实现RLHF、RLVR和Agentic RL的训练pipeline，简化RL训练工作流的开发与管理。

Worker Abstraction for RL Pipeline：Parallel Worker和Rollout Scheduler的抽象使用户能够通过参考提供的训练工作流示例，以最小的工程成本定义和实验新的pipeline。其中，Actor Worker、Critic Worker、Reward Worker和Environment Worker封装了RL训练中的不同角色，清晰的抽象使用户可专注于开发和自定义单个组件，而无需重构整个代码库。并且Stratey的设计解耦了Worker层面的用户计算和backend层面的工程优化，用户可根据需要方便的进行scale，而不修改Worker层面的业务计算。

Optimized LLM Execution：ROLL充分利用DeepSpeed、Megatron、vLLM和SGLang等现有LLM执行引擎的高级功能，以支持大规模GPU集群和资源受限设备环境下的RL优化。

User-defined Device Mapping：AutoDeviceMapping模块支持灵活的用户定义设备映射，允许单个设备被不同阶段的多个LLM共享。这一能力源于两方面：基于Ray实现设备与工作器的绑定及多工作器共享同一设备；ModelUpdateGroup支持跨阶段模型同步，通过分桶广播方式提升参数传输速度，相比传统RL系统支持更灵活的设备分配策略。

Sample-level Rollout Lifecycle Control：Rollout Scheduler提供样本级的rollout生命周期控制，可通过异步奖励计算、动态请求添加和主动请求中止等机制加速动态采样，解决生成阶段的长尾问题并优化资源利用率。

Sample-Wise Management of Rewards and Environments：ROLL可根据负载规模部署多个Reward Worker和Environment Worker，通过样本级控制灵活路由样本，并利用AutoDeviceMapping分配硬件资源，实现异步奖励计算和并行环境交互，避免性能瓶颈。

值得一提的是，对于Agentic RL，包括多轮工具调用：(1) ROLL对EnvironmentWorker的抽象，将env部署到ray.Actor上，天然具备env scaling能力；(2) 考虑到ray.Actor对进程资源的消耗，ROLL提供 thread env能力，在ray.Actor中可创建指定个数的env实例，用户可根据env负载情况自行设置; (3) 并且，ROLL在env粒度上描述rl rollout loop，最大化地将描述空间留给用户，用户可以随心所欲地控制agent与env的交互过程，不必受限于工程实现，相信这种不受限的"骚"操作能力能激发社区更多优秀的idea，一起ROLL起来！！！

实验验证

RLVR Pipeline实验

在 RLVR pipeline实验中，使用来自数学、代码和通用领域的数据集，对 Qwen2.5-7B-base 和 Qwen3-30B-A3B-base 两个 LLM 进行实验。结果显示，Qwen2.5-7B-Base 模型的平均准确率从 0.18 提高到 0.52，提高了 2.89 倍；Qwen3-30B-A3B-Base 模型的准确率从 0.27 提高到 0.62，提高了 2.30 倍。尽管 Qwen3-30B-A3B-Base 模型采用混合专家架构，训练期间的准确率波动较大，但仍呈现明显的上升趋势，最终取得更好的性能。

Agentic Pipeline实验

在三个不同环境中进行了实验：

Sokoban 环境

模型在训练中的成功率从 16.8% 提高到 26.0%，验证环境中的成功率从 13.3% 提高到 35.2%，有效行动的比例从 43.6% 提高到 73.4%，并且这些收益很好地推广到了 FrozenLake 环境。

FrozenLake 环境

训练中的成功率从 16.8% 提高到峰值 26.0%，提高了 55%，有效行动的比例从 69.1% 提高到峰值 88.8%，验证集上的成功率从 12.9% 提高到最大值 23.8%，同时模型还表现出跨环境迁移学习能力。

WebShop 环境

任务成功率在训练和验证环境中都从 37% 提高到 85% 以上，每集的平均行动次数从 7 次以上减少到 4 次左右，表明 LLM 学会了更高效地完成任务。

结论

ROLL 库为大规模 LLM 的 RL 训练提供了一个全面的解决方案，通过其核心模块和关键特性，满足了Tech Pioneer、Product Developer和Algorithm Researcher的不同需求。实验结果充分证明了 ROLL 在加速和扩展 LLM 的 RL 训练方面的有效性，为 RL 在 LLM 领域的进一步应用和发展奠定了坚实的基础。

一起ROLL起来！！！

ROLL ROLL ROLL！！！

查看全文

http://www.dtcms.com/a/237469.html