Reinforcement Learning - VI-PI

1. Value Iteration
2. Policy Iteration
3. Truncated Policy Iteration

RL_2Val-Pol-Iter

a Model-Based RL Algorithm

1. Value Iteration

这个算法在 Reinforcement Learning - Basics 4.3 中已经简要介绍过

$v^*$

$v^*_{\pi}$ 满足

v_{π}^{*} = f (v_{π}^{*}) = max_{π} [r_{π} + γ P_{π} v_{π}^{*}]

该 Unique Fixed Point 可以用如下方式迭代解得

\begin{matrix} v_{k + 1} = f (v_{k}) = max_{π} [r_{π} + γ P_{π} v_{k}] \\ v_{k} \to v^{*} as k \to \infty \end{matrix}

本部分，此算法会被用于寻找 Optimal Policy

1.1 Algorithm

Step 0 - Initialization

需要提供的内容
1. $p(r_{t+1}|s_t,a_t),\; p(s_{t+1}|s_t,a_t) \longrightarrow$ Probabilistic Environment Models
2. $v_0 \longrightarrow$ State Value Initial Guess
Step 1 - Policy Update (PU)

$v_k$
$π_{k + 1} = \arg max_{π} [r_{π} + γ P_{π} v_{k}]$
以 Elementwise Form 表达
$π_{k + 1} (a_{t} | s_{t}) = \arg max_{π} \sum_{a_{t}} {π (a_{t} | s_{t}) \cdot \underset{q_{k} (s_{t}, a_{t})}{\underset{⏟}{(\sum_{r_{t + 1}} [p (r_{t + 1} | s_{t}, a_{t}) r_{t + 1}] + γ \sum_{s_{t + 1}} [p (s_{t + 1} | s_{t}, a_{t}) v_{k} (s_{t + 1})])}}} \forall s \in S$
$v_k$ $q_k$ 即可找到符合上式的 Optimal Greedy Policy
$\begin{matrix} π_{k + 1} (a_{t} | s_{t}) = {\begin{cases} 1 & a_{t} = a_{k}^{*} (s_{t}) \\ 0 & a_{t} \neq a_{k}^{*} (s_{t}) \end{cases} where a_{k}^{*} = \arg max_{a_{t}} q_{k} (s_{t}, a_{t}) \end{matrix}$
Step 2 - Value Update (VU)

$v_{k+1}$ with
$v_{k + 1} = r_{π_{k + 1}} + γ P_{π_{k + 1}} v_{k}$
$\pi_{k+1}(a_t|s_t)$ 得
$v_{k + 1} (s_{t}) = \sum_{a_{t}} {π_{k + 1} (a_{t} | s_{t}) \cdot \underset{q_{k} (s_{t}, a_{t})}{\underset{⏟}{(\sum_{r_{t + 1}} [p (r_{t + 1} | s_{t}, a_{t}) r_{t + 1}] + γ \sum_{s_{t + 1}} [p (s_{t + 1} | s_{t}, a_{t}) v_{k} (s_{t + 1})])}}} \forall s \in S$
由于是 Greedy Policy，所以 Value Update 实际上只需下式即可
$v_{k + 1} (s_{t}) = max_{a_{t}} q_{k} (s_{t}, a_{t}) \forall s \in S$

唯一 $a^*_t$ ，也就是
$\sum_{a_{t}} π_{k + 1} (a_{t} | s_{t}) = 1 + 0 + 0 + \dots + 0 = 1$
然后代入 Elementwise Form，你会发现整件寻找 Next Value 的事情与 Policy 是什么无关

$v_{k+1}$

你可能会觉得 Environment Model 需要 Update，但实际上并不需要

1.2 Pseudo Code

value iteration pseudo code

1.3 Example

在下图的场景中

$s_2$ $s_4$ 为目的地
Reward 设置
- $r_{forbid} = r_{bound} = -1$
- $r_{target} = 1$
$\gamma = 0.9$
$a_1,a_2,a_3,a_4,a_5 =$ 上, 右, 下, 左, 不动

setup

那么该场景的 Q-Table 为

q table

$k = 0$ is

\begin{matrix} v_{0} = [\begin{matrix} v_{0} (s_{1}) \\ v_{0} (s_{2}) \\ v_{0} (s_{3}) \\ v_{0} (s_{4}) \end{matrix}] = [\begin{matrix} 0 \\ 0 \\ 0 \\ 0 \end{matrix}] \end{matrix}

现在演算 Value Iteration

At $k = 0$

$v_0$ 后得到上表，标红数据为每个 State 最大的 Action Value / Q-Value
- Policy Update
  $π_{1} (a_{5} | s_{1}) = 1 π_{1} (a_{3} | s_{2}) = 1 π_{1} (a_{2} | s_{3}) = 1 π_{1} (a_{5} | s_{4}) = 1$
  $s_1$ $a_5$
- Value Update
  $\begin{matrix} v_{1} = [\begin{matrix} v_{1} (s_{1}) \\ v_{1} (s_{2}) \\ v_{1} (s_{3}) \\ v_{1} (s_{4}) \end{matrix}] = [\begin{matrix} 0 \\ 1 \\ 1 \\ 1 \end{matrix}] \end{matrix}$
- Policy Visualized
At $k = 1$

$v_1$ 后得到上表，标红数据为每个 State 最大的 Action Value / Q-Value
- Policy Update
  $π_{2} (a_{3} | s_{1}) = 1 π_{2} (a_{3} | s_{2}) = 1 π_{2} (a_{2} | s_{3}) = 1 π_{2} (a_{5} | s_{4}) = 1$
- Value Update
  $\begin{matrix} v_{2} = [\begin{matrix} v_{2} (s_{1}) \\ v_{2} (s_{2}) \\ v_{2} (s_{3}) \\ v_{2} (s_{4}) \end{matrix}] = [\begin{matrix} 0 + 1 \times 0.9 \\ 1 + 1 \times 0.9 \\ 1 + 1 \times 0.9 \\ 1 + 1 \times 0.9 \end{matrix}] = [\begin{matrix} 0.9 \\ 1.9 \\ 1.9 \\ 1.9 \end{matrix}] \end{matrix}$
- Policy Visualized

显然，迭代两次就已足以找出 Optimal Policy 了

2. Policy Iteration

这是一个只在理论中存在 的算法，可以理解为与 Value Iteration 相对的一个极端，这一点会在 3. Truncated Policy Iteration 中解释

2.1 ALgorithm

Step 0 - Initialization

$\pi_0$
Step 1 - Policy Evaluation (PE)

$v_{\pi_k}$ $\pi_k$

$v_{π_{k}} = r_{π_{k}} + γ P_{π_{k}} v_{π_{k}}$

其实就是解个 Bellman Expectation Equation:
1. Closed-Form Solution
  $v_{π} = (I - γ P_{π})^{- 1} r_{π}$
  看起来很美好，但是由于需要求 Inverse Matrix，计算麻烦，直接否决
2. Iterative Solution
  $v_{π_{k}}^{(j + 1)} = r_{π_{k}} + γ P_{π_{k}} v_{π_{k}}^{(j)} where v_{π_{k}}^{(j)} \to v_{π_{k}} as j \to \infty$
  这个是合适的解法，所以 Policy Iteration 不止本身是一个迭代算法，还嵌套了另一个迭代算法
  
  以 Elementwise Form 表达
  $v_{π_{k}}^{(j + 1)} (s_{t}) = \sum_{a_{t}} {π_{k} (a_{t} | s_{t}) \cdot \underset{q_{π_{k}} (s_{t}, a_{t})}{\underset{⏟}{(\sum_{r_{t + 1}} [p (r_{t + 1} | s_{t}, a_{t}) r_{t + 1}] + γ \sum_{s_{t + 1}} [p (s_{t + 1} | s_{t}, a_{t}) v_{π_{k}}^{(j)} (s_{t + 1})])}}} \forall s \in S$
  
  这一步就是 Policy Iteration 只存在于理论中的原因
  
  因为按照严格定义，你得真的算到无穷，而不是只算到收敛
Step 2 - Policy Improvement (PI)

$v_{\pi_k}$ $\pi_{k+1}$
$π_{k + 1} = \arg max_{π} [r_{π_{k}} + γ P_{π_{k}} v_{π_{k}}]$
以 Elementwise Form 表达
$π_{k + 1} (a_{t} | s_{t}) = \arg max_{π} \sum_{a_{t}} {π_{k} (a_{t} | s_{t}) \cdot \underset{q_{π_{k}} (s_{t}, a_{t})}{\underset{⏟}{(\sum_{r_{t + 1}} [p (r_{t + 1} | s_{t}, a_{t}) r_{t + 1}] + γ \sum_{s_{t + 1}} [p (s_{t + 1} | s_{t}, a_{t}) v_{π_{k}} (s_{t + 1})])}}} \forall s \in S$
$v_{\pi_k}$ 代入上式即可解得 Improved Greedy Policy
$\begin{matrix} π_{k + 1} (a_{t} | s_{t}) = {\begin{cases} 1 & a_{t} = a_{k}^{*} (s_{t}) \\ 0 & a_{t} \neq a_{k}^{*} (s_{t}) \end{cases} where a_{k}^{*} = \arg max_{a_{t}} q_{π_{k}} (s_{t}, a_{t}) \end{matrix}$

为什么 $\pi_{k+1}$ $\pi_{\pi}$ 更好 $v_{\pi_{k+1}} \geq v_{\pi_{k}}$ ？

从定义来看有
$\begin{aligned} π_{k + 1} & = \arg max_{π} [r_{π_{k}} + γ P_{π_{k}} v_{π_{k}}] \\ v_{π_{k}} & = r_{π_{k}} + γ P_{π_{k}} v_{π_{k}} \\ v_{π_{k + 1}} & = r_{π_{k + 1}} + γ P_{π_{k + 1}} v_{π_{k + 1}} \end{aligned}$
所以可以确定
$\begin{aligned} r_{π_{k + 1}} + γ P_{π_{k + 1}} v_{π_{k + 1}} & \geq r_{π_{k}} + γ P_{π_{k}} v_{π_{k}} \\ v_{π_{k + 1}} & \geq v_{π_{k}} \end{aligned}$

2.2 Pseudo Code

policy iteration pseudo code

2.3 Example 1

在下图的场景中

$s_2$ 为目的地
Reward 设置
- $r_{bound} = -1$
- $r_{target} = 1$
$\gamma = 0.9$
$a_l,a_0,a_r =$ 左, 不动, 右
$\pi_0$ $a_l$ ，即初始状态为左图

policy iter ex

现在演算 Policy Iteration

$k = 0$ , Policy Evaluation

方便起见，不用 Iterative Solution 直接解
$\begin{matrix} {\begin{aligned} v_{π_{0}} (s_{1}) & = - 1 + 0.9 \times v_{π_{0}} (s_{1}) \\ v_{π_{0}} (s_{2}) & = 0 + 0.9 \times v_{π_{0}} (s_{2}) \end{aligned} ⟶ {\begin{aligned} v_{π_{0}} (s_{1}) & = - 10 \\ v_{π_{0}} (s_{2}) & = - 9 \end{aligned} \end{matrix}$
$k = 0$ , Policy Improvement

该场景的 Q-Table 为

$v_{\pi_k}$ 可得

标红数据为每个 State 最大的 Action Value / Q-Value，得到的 Improved Policy 为
$π_{1} (a_{r} | s_{1}) = 1 π_{1} (a_{0} | s_{2}) = 1$
$k = 1$ , Done

如右图中 Final Optimal Policy 所示，只用了一次迭代就达到了最优