[强化学习] 第三篇:价值—策略—优势的动态闭环
[强化学习] 第三篇:价值—策略—优势的动态闭环
真正的智能,不在于记忆知识,而在于持续自我校准。

一、从“预测世界”到“校正行为”
强化学习(Reinforcement Learning, RL)的本质,不是让模型预测一个静态的标签,而是让系统在时间的流动中不断更新对未来的理解。
在监督学习中,目标是收敛:
ypred→ytrue
y_{\text{pred}} \rightarrow y_{\text{true}}
ypred→ytrue
模型的价值在于“拟合真理”;
而在强化学习中,目标是自洽:
V(st)=E[rt+γV(st+1)]
V(s_t) = \mathbb{E}[r_t + \gamma V(s_{t+1})]
V(st)=E[rt+γV(st+1)]
模型的价值在于“理解未来”。
这意味着价值函数 (V(s_t)) 并没有固定真值(Ground Truth),
它只是对未来的一个动态预言。
每一次更新都是一次“修正”:
系统用新获得的奖励 (r_t) 与下一步的价值预测 (V(s_{t+1})),
不断调整当前的信念。
这使得强化学习天然适合处理非静态、长期决策和自进化系统——
比如智能调度、智能审查、自动驾驶等复杂场景。
二、价值网络:系统的“时间感”
在任何有目标导向的智能系统中,都必须存在一个“内在时间指标”——
它告诉系统当前状态距离理想目标还有多远。
这正是 Critic(价值网络)的作用。
Critic 并不是要预测结果的“准确分数”,
而是要建立一个稳定的延续性价值基线(Continuation Value),
代表系统在当前策略下“如果不做额外干预,能延续获得的长期收益”。
换句话说:
Critic 不是在拟合未来,而是在校准“惯性预期”。
在工程实现上,这一过程通过时间差分(Temporal Difference, TD)更新实现:
V(st)←V(st)+α[rt+γV(st+1)−V(st)]
V(s_t) \leftarrow V(s_t) + \alpha [r_t + \gamma V(s_{t+1}) - V(s_t)]
V(st)←V(st)+α[rt+γV(st+1)−V(st)]
这是一种典型的时间迭代校正机制。
每个状态的价值不是绝对的,而是通过与后续状态保持一致来维持“时间自洽”。
这也是 RL 相比监督学习的根本差异:它不是在优化函数,而是在优化时间中的一致性。
三、优势函数:智能体的“自我反思”
Critic 提供了期望,Actor 执行了行为,但系统如何知道“这一步是聪明还是愚蠢”?
这正是优势函数(Advantage Function)存在的理由。
优势函数的定义:
A(st,at)=Q(st,at)−V(st)
A(s_t, a_t) = Q(s_t, a_t) - V(s_t)
A(st,at)=Q(st,at)−V(st)
表示该动作相对于当前策略平均表现的“超额收益”。
- 当 (A > 0):动作优于平均水平,系统应强化它;
- 当 (A < 0):动作劣于平均水平,系统应抑制它。
在实现中,Advantage 就是策略更新的加权信号:
∇θJ(θ)=E[At∇θlogπθ(at∣st)]
\nabla_\theta J(\theta) = \mathbb{E}[A_t \nabla_\theta \log \pi_\theta(a_t|s_t)]
∇θJ(θ)=E[At∇θlogπθ(at∣st)]
这意味着:智能体不是盲目追求高回报,而是在不断修正自己相对于期望的偏差。
它学会了自省。
这也是强化学习最接近“智能”的瞬间——
当模型开始知道“我做得比自己预想的更好或更糟”时,
它便拥有了学习的方向感。
四、PPO:策略的“弹性约束”
PPO(Proximal Policy Optimization)是目前工程落地最成功的强化学习算法之一,
其核心思想是在改进与稳定之间保持弹性平衡。
PPO 通过比较新旧策略在相同动作上的概率比:
rt=πθ(at∣st)πold(at∣st)
r_t = \frac{\pi_\theta(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)}
rt=πold(at∣st)πθ(at∣st)
来判断策略是否偏离过远。
当更新过猛时,通过“剪切函数(clip)”限制更新幅度,防止策略崩溃:
L(θ)=Et[min(rtAt,clip(rt,1−ϵ,1+ϵ)At)]
L(\theta) = \mathbb{E}_t[\min(r_t A_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t)]
L(θ)=Et[min(rtAt,clip(rt,1−ϵ,1+ϵ)At)]
这种方式让模型的迭代既能前进,又不会“跳飞”。
它在数值上体现了一个产品级智能系统的关键能力:
可控的演化速度。
五、从算法到产品:智能的三层闭环
在工程化落地中,一个智能系统往往可以分为三层:
| 层级 | 对应模块 | 功能 | 产品意义 |
|---|---|---|---|
| 感知层 | 环境交互、奖励设计 | 感知“结果” | 数据采集与反馈闭环 |
| 评估层 | 价值网络(Critic) | 评估“当前状态值” | 稳定系统的时间感 |
| 决策层 | 策略网络(Actor) | 选择“最优行为” | 形成系统的自主意图 |
三者共同构成一个动态闭环:
感知产生经验 → 价值形成预期 → 策略调整行为 → 再次感知反馈。
这不仅是强化学习的算法结构,
更是任何自适应产品(从推荐系统到智能办案系统)必然的架构模板。
当这一闭环稳定后,系统便具备了“持续改进”的能力,
无需外部监督,也能自我演化。
六、结语:智能的本质是自洽
强化学习的真正力量,不在于复杂的公式,而在于它的哲学内核——
让机器学会与时间对齐。
当一个系统能在变化的世界中保持内部一致性,
能根据结果自我校准行为,
它就跨越了从“执行”到“智能”的门槛。
监督学习让系统知道“是什么”;
强化学习让系统知道“该怎么做”。而当系统能意识到“我做得比想象中更好”,
智能,便开始了。
