什么是强化学习(RL)--2
学习笔记
原视频:概述增强式学习 三 – ActorCriticA_哔哩哔哩_bilibili
Critic:
value function: 当看到s的游戏画面,当使用action,则看到the disconted cumulated reward, 未卜先知,游戏没完成就知道总reward.
怎样得到value function呢
玩多次游戏,根据输出得到total reward, 然后估算value function
另外一个方法:
TD:不用玩完整场游戏就可以得到
得到的中间几个值,然后关键v(st)和v(st+1)的关系,得到之差越接近rt越好,从而估算
看到sb,得分的期望值就是v(sb)
举例:按照两种方法得到值如下可能是0或者是3/4
之前讲过total reward - baseline,那么这个baseline是多少比较合适呢?这个baseline可以是v的输出
为什么呢,因为这里At>0 表示这个执行这个action 得到的reward 比随机action得到的reward大。如下图。但是这里有个问题,这里Gt-hat是执行一次at得到的结果,不一定代表大多数情况。
所以应该是用平均减去平均,version4 如下图。这就是一个常用的方法,叫做advantage actor-critic
训练的小技巧:
由于这里输入都是游戏画面,前面的部分可能处理差不多,所以actor和critic有一部分共用的network。
其他: