RAGEN 简介:基于强化学习的智能体生成; StarPO框架:状态 - 思考 - 行动 - 奖励策略
RAGEN 简介:Reinforcement learning-based Agent GENeration” ,即基于强化学习的智能体生成
目录
- RAGEN 简介:Reinforcement learning-based Agent GENeration” ,即基于强化学习的智能体生成
- RAGEN框架图
- 左侧部分
- 中间部分
- 右侧部分
- 左侧:K - turn Rollout for N Trajectories(生成N条轨迹的K轮展开 )
- 右侧:Update LLM(更新大语言模型 )
- 左侧:K - turn Rollout for N Trajectories(生成N条轨迹的K轮展开 )
- 右侧:Update LLM(更新大语言模型 )
- StarPO框架:状态 - 思考 - 行动 - 奖励策略优化
如何通过强化学习训练大语言模型(LLMs)成为能自我进化的智能体,解决多轮交互中的决策问题。研究者提出了StarPO框架和RAGEN系统,发现了训练中的关键问题并给出解决办法。
- 研究背景:训练LLMs做智能体面临多轮决策、适应随机环境反馈等挑战,强化学习在这方面虽有探索,但多轮智能体RL训练还不完善,不清楚哪些设计因素能让LLMs有效稳定地自我进化。
- 方法
- StarPO框架:将多轮交互轨迹视为整体优化,目标是最大化轨迹奖励,支持多种优化算法,如PPO和GRPO。
- RAGEN系统:基于StarPO构建,用于在受控环境中训练LLM智能体,支持结构化展开、自定义奖励函数等。
- 实验
- 实验设置<