当前位置：首页 > news >正文

踏过强化学习的每一步推导

news 2025/10/22 0:16:44

给定 $l=[a_n, ..., a_0]$ ，现在

for idx in range(len(l)-2, -1, -1):
	l[idx] += l[idx+1] * ld

注：这里的ld就是 $\lambda$ ，定义 $\lambda^0=1$
证明变换后：
$l=[\sum_{i=0}^n \lambda^i a_{n-i}, \cdots, a_0]$

证：使用数学归纳法
现在从后往前看，最后一个位置 $a_0$ 显然成立
然后看倒数第2个位置，变换前是 $a_1$ ，变换后是 $a_1+\lambda a_0$ ，也成立

下面假设在第j个（从右往左数，j从0开始计数）位置处，有
$a_j$
变换后
$\lambda^0 a_j+\lambda^1 a_{j-1}+\cdots \lambda^j a_0$

下面考虑第j+1处
已知变换前，该处是 $a_{j+1}$
根据代码，变换后就是
$a_{j+1}+\lambda (\lambda^0 a_j+\lambda^1 a_{j-1}+\cdots \lambda^j a_0)$

$\lambda^0 a_{j+1}+\lambda^1 (\lambda^0 a_j+\lambda^1 a_{j-1}+\cdots \lambda^j a_0)$

$\lambda^0 a_{j+1}+\lambda^1 a_j+\lambda^2 a_{j-1}+\cdots \lambda^{j+1} a_0$

$\sum_{i=0}^{j+1}\lambda^{i} a_{j+1-i}$
由于在第 $j$ 处成立推得在第 $j + 1$ 处成立，而 $l$ 长度有限，因此该规律在 $l$ 的每一个分量成立。QED。

再看一次强化学习，发现之前的很多观点都是不对的。很多人说，PG那种on-policy的做法只是数学上的技巧。不对。它背后其实有很自然的想法。

C++基础算法(插入排序)

sscanf() 用法详解

[TAMUctf 2025]

【C语言】文件操作（2）

吾爱破解安卓逆向学习笔记（4p）

OpenCV：计算机视觉的强大开源库

Java基础 3.31

自由学习记录（51）

蓝桥杯备考：BFS之Catch That Cow S

5G随身Wi-Fi下的pcdn

Adobe Lightroom 2025安装下载和激活指南

Linux常见操作命令（2）