当前位置：首页 > news >正文

RL【4】：Value Iteration and Policy Iteration

news 2025/9/9 7:29:00

系列文章目录

文章目录

系列文章目录
前言
Value iteration algorithm
Policy iteration algorithm
Truncated policy iteration algorithm
总结

前言

本系列文章主要用于记录 B站赵世钰老师的【强化学习的数学原理】的学习笔记，关于赵老师课程的具体内容，可以移步：
B站视频：【【强化学习的数学原理】课程：从零开始到透彻理解（完结）】
GitHub 课程资料：Book-Mathematical-Foundation-of-Reinforcement-Learning

Value iteration algorithm

How to solve the Bellman optimality equation?

$\max_{\pi} \left( r_\pi + \gamma P_\pi v \right)$

这表明：

$v^*(s)$ 表示从状态 $s$ 出发，遵循最优策略时的价值（期望回报）。
每个状态的最优价值是通过 选择最优动作（最大化）来决定的。

We know that the contraction mapping theorem suggests an iterative algorithm:

$vk+1=f(vk)=max⁡π(rπ+γPπvk),k=1,2,3,…v_{k+1} = f(v_k) = \max_{\pi} \left( r_\pi + \gamma P_\pi v_k \right), \quad k = 1,2,3,\ldots$

where $v_0$ can be arbitrary.

This algorithm can eventually find the optimal state value and an optimal policy, which is called value iteration.

The algorithm can be decomposed into two steps.

Step 1: policy update.
- This step is to solve
  
  $πk+1=arg⁡max⁡π(rπ+γPπvk),\pi_{k+1} = \arg\max_{\pi} \left( r_\pi + \gamma P_\pi v_k \right),$
- where $v_k$ is given.

含义：在第 $k$ 次迭代时，给定当前的价值函数估计 $v_k$ ，选择一个 最优策略 $πk+1\pi_{k+1}$ 。

直观理解：这是一个“贪心选择”步骤 —— 在当前价值估计下，挑选最优的动作。

Step 2: value update.

$vk+1=rπk+1+γPπk+1vkv_{k+1} = r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_k$

含义：利用刚刚得到的 新策略 $πk+1\pi_{k+1}$ ，更新状态价值函数。

直观理解：这一步是“重新计算价值”，即“在新的策略下，我的回报有多少？”。

Question: Is $v_k$ a state value?
- No, because it is not ensured that $v_k$ satisfies a Bellman equation.

Value iteration algorithm - Elementwise form

Step 1: Policy update
- The elementwise form of
  
  $πk+1=arg⁡max⁡π(rπ+γPπvk)\pi_{k+1} = \arg\max_{\pi} \big(r_\pi + \gamma P_\pi v_k\big)$
- is
  
  $πk+1(s)=arg⁡max⁡π∑aπ(a∣s)(∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vk(s′)),s∈S.\pi_{k+1}(s) = \arg\max_{\pi} \sum_a \pi(a \mid s) \left( \sum_r p(r \mid s,a) r + \gamma \sum_{s'} p(s' \mid s,a) v_k(s') \right), \quad s \in \mathcal{S}.$
  
  $πk+1(s)=arg⁡max⁡π∑aπ(a∣s)qk(s,a),s∈S.\pi_{k+1}(s) = \arg\max_{\pi} \sum_a \pi(a \mid s)q_k(s,a), \quad s \in \mathcal{S}.$
- The optimal policy solving the above optimization problem is
  
  $πk+1(a∣s)={1,a=ak∗(s)0,a≠ak∗(s)\pi_{k+1}(a \mid s) = \begin{cases} 1, & a = a^*_k(s) \\ 0, & a \neq a^*_k(s) \end{cases}$
- where $a^*k(s) = \arg\max_a q_k(s,a)$ . $πk+1\pi{k+1}$ is called a greedy policy, since it simply selects the greatest q-value.
$q_k(s,a)$ 就是在状态 $s$ 采取动作 $a$ 后得到的 Q 值（即时奖励 + 折扣未来价值）。
- 含义：在状态 $s$ ，新策略 $πk+1\pi_{k+1}$ 选择的动作是能让 Q 值最大的那个。
- 结果：得到的最优策略是“确定性策略”（deterministic policy）
$πk+1\pi_{k+1}$ 就是一个 贪心策略（greedy policy） —— 在每个状态下，选择当下 Q 值最大的动作。
Step 2: Value update
- The elementwise form of
  
  $vk+1=rπk+1+γPπk+1vkv_{k+1} = r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_k$
- is
  
  $vk+1(s)=∑aπk+1(a∣s)(∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vk(s′)),s∈S.v_{k+1}(s) = \sum_a \pi_{k+1}(a \mid s) \left( \sum_r p(r \mid s,a) r + \gamma \sum_{s'} p(s' \mid s,a) v_k(s') \right), \quad s \in \mathcal{S}.$
  
  $vk+1(s)=∑aπk+1(a∣s)qk(s,a),s∈S.v_{k+1}(s) = \sum_a \pi_{k+1}(a \mid s)q_k(s,a), \quad s \in \mathcal{S}.$
- Since $πk+1\pi_{k+1}$ is greedy, the above equation is simply
  
  $v_{k+1}(s) = \max_a q_k(s,a).$
含义：新的状态价值函数 $v_{k+1}$ ，就是在每个状态下选择能获得最大回报的动作对应的 Q 值。

直观理解：价值函数不断逼近“最优价值”，每次迭代都在向 Bellman 最优性方程靠近。

Step 1（Policy Update）：用 $v_k$ 找出一个贪心策略 $πk+1\pi_{k+1}$ ，即在每个状态下挑选 Q 值最大的动作。

Step 2（Value Update）：用新策略 $πk+1\pi_{k+1}$ 更新 $v_{k+1}$ ，但因为策略是贪心的，结果直接等价于取 $max_a q_k(s,a)$ 。

Value iteration algorithm - Pseudocode

Procedure summary

$vk+1(s)=max⁡aqk(s,a)v_k(s) \;\;\to\;\; q_k(s,a) \;\;\to\;\; \text{greedy policy } \pi_{k+1}(a \mid s) \;\;\to\;\; \text{new value } v_{k+1}(s) = \max_a q_k(s,a)$
值迭代的核心循环：
1. 先用当前的 状态价值函数 $v_k(s)$ 去算 动作价值函数 $q_k(s,a)$ ；
2. 再根据 $q_k(s,a)$ 选出“贪心策略” $πk+1\pi_{k+1}$ ；
3. 用该策略更新状态价值，得到新的 $v_{k+1}$ ；
4. 重复直到收敛。
Pseudocode
- Initialization: The probability model $\mid s,a)$ and $\mid s,a)$ for all $(s, a)$ are known. Initial guess $v_0$ .
  已知环境的概率模型：
  - 转移概率 $\mid s,a)$ ：在状态 $s$ 采取动作 $a$ 后到达 $s^{'}$ 的概率。
  - 奖励概率 $\mid s,a)$ ：在状态 $s$ 采取动作 $a$ 得到奖励 $r$ 的概率。
  - 给定一个初始猜测 $v_0$ ，比如全零向量。相当于“开始时随便猜一个状态值表”
- Aim: Search the optimal state value and an optimal policy solving the Bellman optimality equation.
  目标是找到：
  - 最优状态价值函数 $v^*$
  - 最优策略 $π∗\pi^*$
  它们满足 Bellman 最优性方程。
- While $v_k$ has not converged in the sense that $v_k - v_{k-1} \|$ is greater than a predefined small threshold, for the $k$ -th iteration, do
  - For every state $\in \mathcal{S}$ , do
    - For every action $\in \mathcal{A}(s)$ , do
      
      q-value: $qk(s,a)=∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vk(s′)q_k(s,a) = \sum_r p(r \mid s,a) r + \gamma \sum_{s'} p(s' \mid s,a) v_k(s')$
    - Maximum action value: $a^*_k(s) = \arg\max_a q_k(s,a)$
    - Policy update: $πk+1(a∣s)={1,a=ak∗(s),0,otherwise\pi_{k+1}(a \mid s) = \begin{cases} 1, & a = a^*_k(s), \\ 0, & \text{otherwise} \end{cases}$
    - Value update: $v_{k+1}(s) = \max_a q_k(s,a)$
  收敛条件：
  - 当 $v_k - v_{k-1}|$ 小于一个阈值，停止迭代。
  - 即“新旧价值函数差别非常小”，说明学到的 $v_k$ 已经接近最优 $v^*$ 。
  总体解释
  - Value Iteration 就是不断交替：
    - 用当前 $v_k$ 算 $q_k(s,a)$
    - 从 $q_k(s,a)$ 中提取最优策略
    - 用该策略更新 $v_{k+1}$
  - 每次迭代都在逼近最优解 $v^*$ 和 $π∗\pi^*$ 。
  - 收敛后， $vk≈v∗v_k \approx v^*$ ， $πk≈π∗\pi_k \approx \pi^*$ 。

Policy iteration algorithm

Algorithm description

Given a random initial policy $π0\pi_0$ ,
- Step 1: policy evaluation (PE)
  - This step is to calculate the state value of $πk\pi_k$ :
    
    $vπk=rπk+γPπkvπkv_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}$
  - Note that $vπkv_{\pi_k}$ is a state value function.
  含义：
  - 给定当前策略 $πk\pi_k$ ，我们要算出它的 状态价值函数 $vπkv_{\pi_k}$ 。
  - 这相当于问：如果一直遵循策略 $πk\pi_k$ ，每个状态 $s$ 的长期累计回报是多少？
  结果：得到 $vπkv_{\pi_k}$ ，即该策略下的价值函数。
- Step 2: policy improvement (PI)
  
  $πk+1=arg⁡max⁡π(rπ+γPπvπk)\pi_{k+1} = \arg\max_{\pi} \left( r_\pi + \gamma P_\pi v_{\pi_k} \right)$
  - The maximization is componentwise!
  含义：
  - 在已知 $vπkv_{\pi_k}$ 的情况下，找到一个更好的策略 $πk+1\pi_{k+1}$ 。
  - 具体来说，在每个状态 $s$ ，我们选择那个能使“即时奖励 + 折扣未来回报”最大的动作。
  注意：
  - “maximization is componentwise” 意味着：对于 每个状态 $s$ ，单独选择一个最优动作，而不是一次性全局最大化。
  - 因此 $πk+1\pi_{k+1}$ 通常是一个 贪心策略，即在每个状态下都选择当前看来最优的动作。
The algorithm leads to a sequence

$π0→PEvπ0→PIπ1→PEvπ1→PIπ2→PEvπ2→PI⋯\pi_0 \xrightarrow{PE} v_{\pi_0} \xrightarrow{PI} \pi_1 \xrightarrow{PE} v_{\pi_1} \xrightarrow{PI} \pi_2 \xrightarrow{PE} v_{\pi_2} \xrightarrow{PI} \cdots$
- where PE = policy evaluation, PI = policy improvement.

直观理解

PE 步骤：问“如果我老老实实按照当前策略走，能得到多少回报？”
PI 步骤：想“那如果我稍微贪心一点，在某些状态换个更优动作，会不会更好？”

Q & A

Q1: In the policy evaluation step, how to get the state value $vπkv_{\pi_k}$ by solving the Bellman equation?
- The Bellman equation for policy $πk\pi_k$ is
  
  $vπk=rπk+γPπkvπk.v_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}.$
- Closed-form solution:
  
  $vπk=(I−γPπk)−1rπk.v_{\pi_k} = (I - \gamma P_{\pi_k})^{-1} r_{\pi_k}.$
- Iterative solution:
  
  $vπk(j+1)=rπk+γPπkvπk(j),j=0,1,2,…v_{\pi_k}^{(j+1)} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}^{(j)}, \quad j = 0,1,2,\ldots$
- Policy iteration is an iterative algorithm with another iterative algorithm embedded in the policy evaluation step!
Q2: In the policy improvement step, why is the new policy $πk+1\pi_{k+1}$ better than $πk\pi_k$ ?
- Lemma: Policy Improvement
  - If
    
    $πk+1=arg⁡max⁡π(rπ+γPπvπk),\pi_{k+1} = \arg\max_{\pi} \big(r_\pi + \gamma P_\pi v_{\pi_k}\big),$
  - then
    
    $vπk+1≥vπk,∀k.v_{\pi_{k+1}} \geq v_{\pi_k}, \quad \forall k.$
Q3: Why such an iterative algorithm can finally reach an optimal policy?
- Since every iteration improves the policy, we know
  
  $vπ0≤vπ1≤vπ2≤⋯≤vπk≤⋯≤v∗.v_{\pi_0} \;\leq\; v_{\pi_1} \;\leq\; v_{\pi_2} \;\leq \cdots \leq v_{\pi_k} \;\leq \cdots \leq v^*.$
- As a result, $vπkv_{\pi_k}$ keeps increasing and will converge.
- Theorem: Convergence of Policy Iteration
  - The state value sequence ${vπk}k=0∞\{v_{\pi_k}\}_{k=0}^{\infty}$ generated by the policy iteration algorithm converges to the optimal state value $v^*$ .
  - As a result, the policy sequence ${πk}k=0∞\{\pi_k\}_{k=0}^{\infty}$ converges to an optimal policy.
Q4: What is the relationship between this policy iteration algorithm and the previous value iteration algorithm?
- Related to the answer to Q3

Policy iteration algorithm - Elementwise form

Step 1: Policy Evaluation
- Matrix-vector form:
  
  $vπk(j+1)=rπk+γPπkvπk(j),j=0,1,2,…v_{\pi_k}^{(j+1)} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}^{(j)}, \quad j = 0,1,2,\ldots$
- Elementwise form:
  
  $v_{\pi_k}^{(j+1)}(s) = \sum_a \pi_k(a \mid s)
  \Bigg( \sum_r p(r \mid s,a) r
  - \gamma \sum_{s’} p(s’ \mid s,a) v_{\pi_k}^{(j)}(s’) \Bigg),
    \quad s \in \mathcal{S}.$
  - Stop when $\to \infty$ or $j$ is sufficiently large, or $∥vπk(j+1)−vπk(j)∥\| v_{\pi_k}^{(j+1)} - v_{\pi_k}^{(j)} \|$ is sufficiently small.
通过不断迭代更新 $vπkv_{\pi_k}$ ，最终能收敛到该策略下的真实价值函数 $vπkv_{\pi_k}$ 。
Step 2: Policy Improvement
- Matrix-vector form:
  
  $πk+1=arg⁡max⁡π(rπ+γPπvπk)\pi_{k+1} = \arg\max_\pi (r_\pi + \gamma P_\pi v_{\pi_k})$
- Elementwise form:
  
  $πk+1(s)=arg⁡max⁡π∑aπ(a∣s)(∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vπk(s′)),s∈S.\pi_{k+1}(s) = \arg\max_\pi \sum_a \pi(a \mid s) \Bigg( \sum_r p(r \mid s,a) r + \gamma \sum_{s'} p(s' \mid s,a) v_{\pi_k}(s') \Bigg), \quad s \in \mathcal{S}.$
  - Here, $qπk(s,a)q_{\pi_k}(s,a)$ is the action value under policy $πk\pi_k$ . Let
    
    $ak∗(s)=arg⁡max⁡aqπk(s,a).a^*_k(s) = \arg\max_a q_{\pi_k}(s,a).$
  - Then, the greedy policy is
    
    $πk+1(a∣s)={1,a=ak∗(s)0,a≠ak∗(s).\pi_{k+1}(a \mid s) = \begin{cases} 1, & a = a^*_k(s) \\ 0, & a \neq a^*_k(s). \end{cases}$
给定 $vπkv_{\pi_k}$ ，我们寻找新的策略 $πk+1\pi_{k+1}$ ，使得每个状态下的长期回报最大化。

整体理解

策略评估 (PE)：计算“在当前策略 $πk\pi_k$ 下，每个状态的价值是多少”。用迭代公式逼近，直到收敛。
策略改进 (PI)：基于当前 $vπkv_{\pi_k}$ ，在每个状态挑选更优动作，从而得到新策略 $πk+1\pi_{k+1}$ 。

Pseudocode: Policy Iteration Algorithm
- Initialization: The probability model $\mid s,a)$ and $\mid s,a)$ for all $(s, a)$ are known. Initial guess $π0\pi_0$ .
已知环境的概率模型：
- 奖励分布 $\mid s,a)$ ：在状态 $s$ 执行动作 $a$ 时得到奖励 $r$ 的概率。
- 转移分布 $\mid s,a)$ ：在状态 $s$ 执行动作 $a$ 后转移到状态 $s^{'}$ 的概率。
随机初始化一个策略 $π0\pi_0$ （比如在每个状态随机选择动作）。
- Aim: earch for the optimal state value and an optimal policy.
目标是找到：
- 最优状态价值函数 $v^*$
- 最优策略 $π∗\pi^*$
即满足 Bellman 最优性方程的解。
- While the policy has not converged, for the $k$ -th iteration, do
  - Policy evaluation:
    - Initialization: an arbitrary initial guess $vπk(0)v_{\pi_k}^{(0)}$ .
    - While $vπk(j)v_{\pi_k}^{(j)}$ has not converged, for the $j$ -th iteration, do
      - For every state $\in \mathcal{S}$ , do
        
        $vπk(j+1)(s)=∑aπk(a∣s)[∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vπk(j)(s′)],v_{\pi_k}^{(j+1)}(s) = \sum_a \pi_k(a \mid s) \Bigg[ \sum_r p(r \mid s,a) r + \gamma \sum_{s'} p(s' \mid s,a) v_{\pi_k}^{(j)}(s') \Bigg],$
  - Policy improvement:
    - For every state $\in \mathcal{S}$ , do
      
      $qπk(s,a)=∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vπk(s′),q_{\pi_k}(s,a) = \sum_r p(r \mid s,a) r + \gamma \sum_{s'} p(s' \mid s,a) v_{\pi_k}(s'),$
      - $ak∗(s)=arg⁡max⁡aqπk(s,a),a^*_k(s) = \arg\max_a q{\pi_k}(s,a),$
      - $πk+1(a∣s)=1\pi_{k+1}(a \mid s) = 1$ if $a=a^*_k(s)$ , and $∗πk+1(a∣s)=0*\pi_{k+1}(a \mid s) = 0$ * otherwise
含义：
- PE：在固定策略 $πk\pi_k$ 下，不断迭代，直到算出该策略的真实状态价值函数 $vπkv_{\pi_k}$
- PI：根据 $vπkv_{\pi_k}$ 的评估结果，把策略改进为“在每个状态总是选择当前看起来最优的动作”。
收敛过程

如果在某次迭代后，策略不再变化（ $πk+1=πk\pi_{k+1} = \pi_k$ ），说明我们已经找到了 最优策略 $π∗\pi^*$ ，对应的 $vπ∗v_{\pi^*}$ 就是最优状态价值函数 $v^*$ 。

Truncated policy iteration algorithm

Compare value iteration and policy iteration

Elementwise form
- Policy Iteration
  - Step 1: Policy Evaluation
    
    $vπk=rπk+γPπkvπkv_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}$
  - Step 2: Policy Improvement
    
    $πk+1=arg⁡max⁡π(rπ+γPπvπk)\pi_{k+1} = \arg\max_\pi (r_\pi + \gamma P_\pi v_{\pi_k})$
- Value iteration: start from $v_0$
  - Step 1: Policy update (PU)
    
    $πk+1=arg⁡max⁡π(rπ+γPπvπk)\pi_{k+1} = \arg\max_\pi (r_\pi + \gamma P_\pi v_{\pi_k})$
  - Step 2: Value update (VU)
    
    $vk+1=rπk+1+γPπk+1vkv_{k+1} = r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_k$
The two algorithms are very similar:
- Policy iteration
  
  $π0→PEvπ0→PIπ1→PEvπ1→PIπ2→PEvπ2→PI⋯\pi_0 \;\xrightarrow{PE}\; v_{\pi_0} \;\xrightarrow{PI}\; \pi_1 \;\xrightarrow{PE}\; v_{\pi_1} \;\xrightarrow{PI}\; \pi_2 \;\xrightarrow{PE}\; v_{\pi_2} \;\xrightarrow{PI}\; \cdots$
- Value iteration
  
  $u0→PUπ1′→VUu1→PUπ2′→VUu2→PU⋯u_0 \;\xrightarrow{PU}\; \pi'_1 \;\xrightarrow{VU}\; u_1 \;\xrightarrow{PU}\; \pi'_2 \;\xrightarrow{VU}\; u_2 \;\xrightarrow{PU}\; \cdots$
- Where
  - PE = policy evaluation, PI = policy improvement.
  - PU = policy update, VU = value update.

两个算法的直观理解

Policy Iteration：每次都把 $vπkv_{\pi_k}$ 评估到精确解，再更新策略 → 收敛快，但每次评估开销大。
Value Iteration：不用精确求解 $vπv_\pi$ ，而是一步步更新 $v_k$ → 每步轻量，但收敛要更多迭代。

相同点

两者都基于 Bellman 最优性方程。
都是交替进行“价值更新”和“策略改进”，最终收敛到最优策略 $π∗\pi^*$ 和最优状态价值 $v^*$ 。

不同点

Policy Iteration (PI)

策略评估 (PE)：

每次迭代时，都要把 $vπkv_{\pi_k}$ 精确算出来（即解方程 $vπk=rπk+γPπkvπkv_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}$ ）。

策略改进 (PI)：

在已知精确 $vπkv_{\pi_k}$ 的情况下，更新策略 $πk+1\pi_{k+1}$ 。

特点：

每次迭代“算得很准”，所以只需很少迭代就能收敛。
但每一步代价高，因为需要解大规模线性方程组（或迭代到精确解）。

适用场景：状态空间比较小，可以承担“每次精确评估”的计算量。

Value Iteration (VI)
策略更新 (PU) + 价值更新 (VU)：
不去精确求解 $vπkv_{\pi_k}$ ；
而是从 $v_k$ 出发，先用它生成贪心策略 $πk+1\pi_{k+1}$ ，再只做一次价值更新

特点：
每一步计算量小（只做一步 Bellman 更新）。
需要更多迭代才能收敛。

适用场景：状态空间很大，无法每次都精确解策略评估，只能渐进更新。

在这里插入图片描述

Let’s compare the steps carefully:
- They start from the same initial condition.
  - In policy iteration, solving $vπ1=rπ1+γPπ1vπ1v_{\pi_1} = r_{\pi_1} + \gamma P_{\pi_1} v_{\pi_1}$ requires an iterative algorithm (an infinite number of iterations).
  - In value iteration, $v1=rπ1+γPπ1v0v_1 = r_{\pi_1} + \gamma P_{\pi_1} v_0$ is a one-step iteration.
- Consider the step of solving $vπ1=rπ1+γPπ1vπ1v_{\pi_1} = r_{\pi_1} + \gamma P_{\pi_1} v_{\pi_1}$ :
  
  $vπ1(0)=v0v_{\pi_1}^{(0)} = v_0$
  
  $iteration←v1←vπ1(1)=rπ1+γPπ1vπ1(0)\text{Value iteration} \leftarrow v_1 \leftarrow v_{\pi_1}^{(1)} = r_{\pi_1} + \gamma P_{\pi_1} v_{\pi_1}^{(0)}$
  
  $vπ1(2)=rπ1+γPπ1vπ1(1)v_{\pi_1}^{(2)} = r_{\pi_1} + \gamma P_{\pi_1} v_{\pi_1}^{(1)}$
  
  $⋯\cdots$
  
  $iteration←vˉ1←vπ1(j)=rπ1+γPπ1vπ1(j−1)\text{Truncated policy iteration} \leftarrow \bar{v}1 \leftarrow v{\pi_1}^{(j)} = r_{\pi_1} + \gamma P_{\pi_1} v_{\pi_1}^{(j-1)}$
  
  $⋯\cdots$
  
  $iteration←vπ1←vπ1(∞)=rπ1+γPπ1vπ1(∞)\text{Policy iteration} \leftarrow v_{\pi_1} \leftarrow v_{\pi_1}^{(\infty)} = r_{\pi_1} + \gamma P_{\pi_1} v_{\pi_1}^{(\infty)}$
- Where
  - The value iteration algorithm computes once.
  - The policy iteration algorithm computes an infinite number of iterations.
  - The truncated policy iteration algorithm computes a finite number of iterations (say $j$ ). The rest iterations from $j$ to $∞\infty$ are truncated.

Pseudocode: Truncated policy iteration algorithm

背景

Policy Iteration (PI) 的核心是两步：
策略评估 (Policy Evaluation, PE)：精确求解当前策略 $πk\pi_k$ 的状态价值 $vπkv_{\pi_k}$ 。
策略改进 (Policy Improvement, PI)：基于 $vπkv_{\pi_k}$ ，更新得到更优的策略 $πk+1\pi_{k+1}$ 。

但是 策略评估如果做到精确，需要反复迭代直到收敛，计算开销很大。
为了加快速度，可以只做有限步的近似评估，这就得到 截断策略迭代 (Truncated Policy Iteration, TPI)。

它本质上是 Policy Iteration 和 Value Iteration 的折中方法。

Initialization: The probability model $\mid s,a)$ and $\mid s,a)$ for all $(s, a)$ are known. Initial guess $π0\pi_0$ .

初始化

已知环境模型：奖励分布 $p (r ∣ s, a)$ 和转移分布 $p (s^{'} ∣ s, a)$ 。
初始化一个随机策略 $π0\pi_0$ 。

Aim: Search for the optimal state value and an optimal policy.
While the policy has not converged, for the $k$ -th iteration, do
- Policy evaluation:
  - Initialization: select the initial guess as $v_k^{(0)} = v_{k-1}$ . The maximum iteration is set to be $jtruncatej_{\text{truncate}}$ .
  - While $j_{\text{truncate}}$ , do
    - For every state $\in \mathcal{S}$ , do
      
      $vk(j+1)(s)=∑aπk(a∣s)[∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vk(j)(s′)]v_k^{(j+1)}(s) = \sum_a \pi_k(a \mid s) \Bigg[ \sum_r p(r \mid s,a) r + \gamma \sum_{s'} p(s' \mid s,a) v_k^{(j)}(s') \Bigg]$
    - Set $vk=vk(jtruncate)v_k = v_k^{(j_{\text{truncate}})}$ .
  Truncated Policy Evaluation
  - 初始化 $v_k^{(0)} = v_{k-1}$ （即用上一次迭代的结果作为初始猜测）。
  - 设置最大迭代次数 $jtruncatej_{\text{truncate}}$ 。
  - 执行有限次迭代：
    
    $vk(j+1)(s)=∑aπk(a∣s)[∑rp(r∣s,a)r+γ∑s’p(s’∣s,a)vk(j)(s’)]v_k^{(j+1)}(s) = \sum_a \pi_k(a \mid s)\Bigg[ \sum_r p(r \mid s,a) r + \gamma \sum_{s’} p(s’ \mid s,a) v_k^{(j)}(s’) \Bigg]$
  - 迭代 $jtruncatej_{\text{truncate}}$ 次后，得到近似的 $vk≈vπkv_k \approx v_{\pi_k}$ 。
  - 与完全的策略评估不同，这里并没有等 $vπk(j)v_{\pi_k}^{(j)}$ 收敛，而是 提前截断。
- Policy improvement:
  - For every state $\in \mathcal{S}$ , do
    
    $qk(s,a)=∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vk(s′),q_k(s,a) = \sum_r p(r \mid s,a) r + \gamma \sum_{s'} p(s' \mid s,a) v_k(s'),$
    - $a^*_k(s) = \arg\max_a q_k(s,a),$
    - $πk+1(a∣s)=1\pi_{k+1}(a \mid s) = 1$ if $a = a^*_k(s)$ , and $πk+1(a∣s)=0\pi_{k+1} (a \mid s) = 0$ otherwisde
  Policy improvement
  - 对于每个状态 $s$ ，先计算所有动作的 $q$ 值：
    
    $qk(s,a)=∑rp(r∣s,a)r+γ∑s’p(s’∣s,a)vk(s’)q_k(s,a) = \sum_r p(r \mid s,a) r + \gamma \sum_{s’} p(s’ \mid s,a) v_k(s’)$
  - 选择最优动作：
    
    $a_k^*(s) = \arg\max_a q_k(s,a)$
  - 更新策略：
    
    $πk+1(a∣s)={1,a=ak(s)0,a≠ak(s)\pi_{k+1}(a \mid s) = \begin{cases} 1, & a = a_k^{(s)} \\ 0, & a \neq a_k^{(s)} \end{cases}$

Convergence

Proposition (Value Improvement)

Consider the iterative algorithm for solving the policy evaluation step:

$vπk(j+1)=rπk+γPπkvπk(j),j=0,1,2,…v_{\pi_k}^{(j+1)} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}^{(j)}, \quad j = 0,1,2,\ldots$
If the initial guess is selected as $vπk(0)=vπk−1v_{\pi_k}^{(0)} = v_{\pi_{k-1}}$ , it holds that

$vπk(j+1)≥vπk(j)v_{\pi_k}^{(j+1)} \geq v_{\pi_k}^{(j)}$
- for every $0,1,2,\ldots$

总体理解

Policy Iteration：每次都精确解 $vπkv_{\pi_k}$ → 每步开销大，但收敛迭代次数少。
Value Iteration：每次只做一步价值更新 → 每步轻量，但收敛迭代次数多。
Truncated Policy Iteration：折中方法，每次只做有限步（ $jtruncatej_{\text{truncate}}$ 次）价值迭代。
$jtruncatej_{\text{truncate}}$ 大 → 更像 Policy Iteration；
$jtruncatej_{\text{truncate}}$ 小 → 更像 Value Iteration。