当前位置: 首页 > news >正文

【Agentic RL专题】一、LLM agent 与 agentic RL

在这里插入图片描述

🧔 这里是九年义务漏网鲨鱼,研究生在读,主要研究方向是人脸伪造检测,长期致力于研究多模态大模型技术;国家奖学金获得者,国家级大创项目一项,发明专利一篇,多篇论文在投,蓝桥杯国家级奖项、妈妈杯一等奖。
✍ 博客主要内容为大模型技术的学习以及相关面经,本人已得到B站、百度、唯品会等多段多模态大模型的实习offer,为了能够紧跟前沿知识,决定写一个“从零学习 RL”主题的专栏。这个专栏将记录我个人的主观学习过程,因此会存在错误,若有出错,欢迎大家在评论区帮助我指出。除此之外,博客内容也会分享一些我在本科期间的一些知识以及项目经验。
🌎 Github仓库地址:Baby Awesome Reinforcement Learning for LLMs and Agentic AI
📩 有兴趣合作的研究者可以联系我:yirongzzz@163.com

相信初学的小伙伴会对 LLM agent以及 Agentic RL 两个名词有点混淆,因此,对于这两个名词的解释将作为专题第一章,带你深入理解 LLM agent 以及 Agentic RL的区别

文章目录

    • 一、为什么我们需要 Agentic RL?
    • 二、两条研究主线:LLM Agents 与 RL for LLMs
    • 三、静态对齐 vs. 动态决策
    • 四、马尔可夫决策过程
    • 五、奖励设计:从静态偏好到动态任务反馈
    • 六、总结
      • 🧠 下一步:走向策略优化(PPO)

一、为什么我们需要 Agentic RL?

在系统的学习agentic RL之前,我们需要去了解两个问题:① 什么是agent ② LLM agent 与 agentic RL之间有什么联系

过去几年,LLM 的飞速发展让语言理解与生成达到了惊人的水平——但在“行动”层面,它依然是被动的。给它一个 prompt,它给你一段回答。但这并不是智能,他更像是现代的“百度”,为我们提供答案。LLM 就像是一个知识库反馈我们答案

大语言模型(LLM)已经能写诗、写代码、答题——但它不会自己去行动
比如它知道“去查天气”,但不会真的去打开天气网站。
那么,如何让它能感知世界、做决策、执行行动
这正是Agent想要解决的问题。

因此,智能体(Agent)还需要:

  • 感知(Perception):理解环境、状态、反馈;
  • 规划(Planning):制定策略、选择行动;
  • 执行(Action):调用工具、发出指令;
  • 反思(Reflection):评估行动是否有效;
  • 记忆(Memory):保留长期经验,形成习惯与风格

这些功能在专题会继续研究。

也就是说,① 现在的大语言模型我们更想让他成为一个智能体Agent,不仅仅是需要让他输出文字,还需要有感知、规划、推理、调用工具、维护记忆、适合策略等的能力。除此之外,② 强化学习 (Reinforcement Learning, RL) 正是让模型“学会在交互中行动”的关键。 而当这种强化学习与大型语言模型(LLM)结合——让语言模型从“说得对”变成“做得对”——就形成了一个新的研究分支:🧠 Agentic Reinforcement Learning (Agentic RL) ——让 LLM 成为会行动的智能体。

在这里插入图片描述

二、两条研究主线:LLM Agents 与 RL for LLMs

Agentic RL 的研究在这之前大致可以分为两条主线 : ① LLM AgentsRL for LLMs

在这里插入图片描述

  • LLM Agents:研究LLMs在交互式环境里能否自主完成任务。重点是让 LLM 具备感知、规划、推理、工具调用、记忆维护、交互等能力,像一个决策者一样行动。代表工作包括基于 ReAct、AutoGPT、Voyager 等框架的 LLM agents

  • RL for LLMs:研究强化学习方法优化 LLM 的行为,让模型更符合人类或任务需求。最典型的是RLHF(从人类反馈中强化学习),以及其衍生的RLAIF、DPO、ORPO 等,用于对齐人类偏好。

分支研究目标代表工作
LLM Agents让 LLM 拥有感知、规划、行动、反思的能力ReAct, AutoGPT, Voyager, MetaGPT, MemGPT
RL for LLMs用强化学习优化 LLM 行为,使其更符合人类或任务偏好RLHF, RLAIF, DPO, ORPO, GRPO, AgentTune

硬币的两面:

  • LLM Agents 关注“怎么让模型动起来”;
  • RL for LLMs 关注“怎么让动作越来越聪明”。

最终,这两条路径正在融合——形成一个能“自主学习与改进”的智能体生态。

三、静态对齐 vs. 动态决策

1️⃣ RLHF——静态对齐

在过去的 RLHF(Reinforcement Learning from Human Feedback)中,例如InstructGPT的训练流程大致如下:

  1. 收集 prompt 与回答样本;
  2. 用人类标注的偏好训练奖励模型 (Reward Model, RM);
  3. 让语言模型通过 PPO 等算法最大化奖励分数。

这个过程的本质是单步强化学习

  • 输入 prompt → 输出完整回答;
  • 奖励仅取决于最终输出;
  • 没有过程状态的变化,也没有多步决策。

2️⃣ Agentic RL——动态决策

当我们更希望我们的模型能够:

  • 主动去检索资料
  • 调用计算工具或执行代码,
  • 与用户进行多轮交互
  • 或者在一个游戏/任务环境中逐步推理与探索

那么原来的“一步到位”训练方式就不够用了。我们需要的是:多步决策 的强化学习。Agentic RL 把 LLM 看作一个“语言驱动的决策体”:

  • 每一次生成 token、调用 API、执行代码,都是一个动作 (Action)
  • 每一次环境反馈(检索结果、计算结果、用户回应)都是一个新状态 (State)
  • 模型的目标是最大化长期累计奖励 (Return),不仅仅是“最终结果正确”,还包括“过程是否高效、合理、符合逻辑”。

四、马尔可夫决策过程

强化微调可以被认为是一个马尔可夫决策过程,一共包含了七个过程元素<S,O,A,P,R,T,γ><S,O,A,P,R,T,\gamma><S,O,A,P,R,T,γ>

变量名含义
S环境状态(包含任务上下文、历史、工具状态等)
O模型能观察到的部分状态(可见内容)
A模型的动作(生成 token、调用函数、发出指令)
R奖励函数(任务成功率、逻辑正确性、工具使用效率)
P状态转移概率(执行动作后环境变化)
T任务步数上限
γ\gammaγ折现因子(平衡短期与长期回报)

RLHF 是单次决策的结果,不依赖过程的决策,通过起始状态S={prompt},执行一次动作为模型的输出,不需要有过程的输出以及奖励,因此在PBRFTT = 1, y无效,并且下一个状态是确定的。就像在InstructGPT中一样,我们首先会构建偏好数据集训练一个奖励函数,其中prompt就是起始状态,而最后模型也只会根据输出进行奖励,训练目标是最大化似然估计输出。因此我们可以把 RLHF 看作是一种 偏好驱动的强化式微调(PBRFT / RFT),对应于一个简化的 MDP:

T=1,S=prompt,A=generatey,R=RM(y),P(S′∣S,A)=1T=1, S={prompt}, A={generate_y}, R=RM(y), P(S′∣S,A)=1T=1,S=prompt,A=generatey,R=RM(y),P(SS,A)=1

Agentic RL被当作连续决策的智能体,每次动作的执行都可以观察到部分信息:包括外部环境、工具/代码运行的中间结果、数据库/网页内容、会话历史、代理的内存等。状态是不断变化的.有多步交互(T>1)、中间会拿到/影响后续信息与奖励,这时才需要γ\gammaγ来权衡短期和长期,训练会用终点奖励(目标是否完成)+ 过程奖励(步骤是否正确),属于POMDP多步决策

在这里插入图片描述

五、奖励设计:从静态偏好到动态任务反馈

在 Agentic RL 中,奖励不再只是“人类喜欢哪种回答”,而是更复杂的组合:

奖励类型含义例子
终点奖励 (Final Reward)任务是否完成答案是否正确、任务是否达成
过程奖励 (Process Reward)行为过程是否合理推理链条正确、逻辑合理、调用顺序合规
辅助奖励 (Auxiliary Reward)提升训练稳定性输出长度、token 效率、工具使用代价
社会奖励 (Social Reward)人类偏好或安全性是否有害、是否礼貌、是否合乎伦理

一种典型的实现方式是使用 PRM(Process Reward Model)

  • PRM 不是只给最终答案打分,而是给整个 reasoning chain(例如一步步推理的过程)进行局部奖励;
  • 这让 LLM 可以学会 “每一步都做得对”,而不是“结果对了就行”。

六、总结

我们在这一篇中,从最直觉的问题——“为什么 LLM 需要行动能力?”——出发,逐步理解了 Agentic RL(智能体强化学习) 的核心思想:

  1. 从语言到行动
    传统的 LLM 只会被动回答,而 Agentic RL 让它学会“感知—思考—行动—反思”,成为真正的智能体(Agent)。
  2. 两条发展主线
    • 一条是构建具备工具使用、记忆、推理能力的 LLM Agents
    • 另一条是用强化学习优化 LLM 的策略,即 RL for LLMs(例如 RLHF、DPO、RLAIF)。
      它们正在融合,目标是让模型能在交互中不断提升自己。
  3. 静态对齐 vs. 动态决策
    RLHF 属于“单步决策”,仅优化最终回答;
    Agentic RL 则是“多步决策”,模型需要在复杂环境中持续决策与调整。
  4. 统一视角:马尔可夫决策过程(MDP)
    无论是 RLHF 还是 Agentic RL,本质上都是在学习“在某个状态下,执行哪个动作能获得更高的长期奖励”。
  5. 奖励函数的演化
    从“人类喜欢什么样的回答”扩展到“模型在执行过程中是否做得对”,
    这让 LLM 真正具备了推理与改进的能力

从“输出答案”到“行动决策”,Agentic RL 是让语言模型从“被动大脑”走向“主动智能”的关键一步。

🧠 下一步:走向策略优化(PPO)

理解了“为什么要强化学习”和“Agentic RL 的概念”,接下来我们就要进入最核心的算法——
👉 Proximal Policy Optimization(PPO)

它是目前最主流、最稳定的强化学习方法,也是 RLHF 与 Agentic RL 的基石。
下一篇我们将详细拆解 PPO 的原理、推导与代码实现,从直觉到数学,一步步理解它如何让语言模型变得“又稳又聪明”。

http://www.dtcms.com/a/549007.html

相关文章:

  • 使用Java做URL短连接还原长链接获取参数
  • 自己网站做电子签章有效么有哪些网站做汽车周边服务
  • 做网站去哪好在线表单 wordpress
  • 从信号零损耗到智能协同:高清混合矩阵全链路技术拆解,分布式可视化系统十大趋势重塑行业
  • 【超详细】MySQL事务面试题
  • Ubuntu(③vsftpd)
  • Ubuntu 25.10 发布,各种衍生版也发布
  • HUAWEI A800I A2 aarch64架构Ubuntu服务器鲲鹏920开启 IOMMU/SMMU 硬件虚拟化功能
  • GitHub 发布 Agent HQ:欢迎回家,智能体们
  • 使用 Python 将 PowerPoint 转换为 Word 文档
  • 怎么成立自己的网站公司网站建设案例
  • 做数码后期上数码网站企业推广文章
  • iOS 抓包工具实战 开发者的工具矩阵与真机排查流程
  • Spring Boot 整合第三方组件:Redis、MyBatis、Kafka 实战
  • 可视化图解算法66:两个数组的交集
  • 7 种方法:如何将视频从电脑传输到安卓手机
  • Qt GridLayout布局详解:从基础到高级技巧
  • BTreeMap 的 B-Tree 之心:性能与安全的 Rust 式演绎
  • 中国查公司的网站长沙 网站设计 公司
  • R 因子:深度解析其在统计学中的重要作用
  • Laravel 结合影刀 RPA 实现企业微信自动询单报价流程
  • Rust 入门之Rust 运算符全面解析:从基础到实战
  • Rust:借用 切片
  • 【Blender工具】
  • Spring Al学习6:嵌入模型 API
  • 坪山区住房和建设局网站wordpress能放视频
  • 网站承建商有哪些注册了一个域名怎么做网站
  • 我公司是帮企业做网站的_现在要帮客户们的网站备案微信公众营销平台开发
  • MPC模型预测控制:原理、设计与MATLAB实现
  • JavaEE初阶,网络编程篇