Reinforcement Learning - MC

1. Monte-Carlo Basics
- 1.1 Review: 大数定理
- 1.2 无模型 Policy Iteration
2. Monte-Carlo Exploring Starts
3. Monte-Carlo ϵ\epsilon-Greedy

RL_3MC

Model-Free RL Algorithm

emm，名字看起来很玄乎，但是实际上就是基于统计学的做法

1. Monte-Carlo Basics

本部分以 Reinforcement Learning - Value / Policy Iteration 中的 Policy Iteration 为基础介绍 Monte-Carlo Method 的基本原理

注意：后文提到的 Model-Free Policy Iteration 网上大概是搜不到的，因为压根就不值得用

1.1 Review: 大数定理

Sampling Distribution

$n$ Random Variables $X_1,X_2,...,X_n$ independently & identically $X$
Mean of Sampling Distribution
$\bar{X} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}$
$n\to\infin$ 时，采样分布之均值将收敛于 Expectation
$\begin{aligned} E [\bar{X}] & = E [X] \\ Var [\bar{X}] & = \frac{1}{n} Var [X] \end{aligned}$

1.2 无模型 Policy Iteration

用 Monte-Carlo Estimation 的方式将 Policy Iteration 改成 Model Free 的版本

基本的 Policy Iteration 算法

Step 1 - Policy Evaluation (PE)

$v_{\pi_k}$ $\pi_k$
$v_{π_{k}} = r_{π_{k}} + γ P_{π_{k}} v_{π_{k}}$

Step 2 - Policy Improvement (PI)

$v_{\pi_k}$ $\pi_{k+1}$
$π_{k + 1} = \arg max_{π} [r_{π_{k}} + γ P_{π_{k}} v_{π_{k}}]$

$\pi_{k+1}$ ，也就是 Step 2，以 Elementwise Form 表达

$\pi_{k+1}$ $\pi_k$ ？

$\pi_k$ $\pi_0$

$\pi_k$ $\pi_{k+1}$

\begin{aligned} π_{k + 1} (a_{t} | s_{t}) & = \arg max_{π} \sum_{a_{t}} {π_{k} (a_{t} | s_{t}) \cdot \underset{q_{π_{k}} (s_{t}, a_{t})}{\underset{⏟}{(\sum_{r_{t + 1}} [p (r_{t + 1} | s_{t}, a_{t}) r_{t + 1}] + γ \sum_{s_{t + 1}} [p (s_{t + 1} | s_{t}, a_{t}) v_{π_{k}} (s_{t + 1})])}}} \\ = \arg max_{π} \sum_{a_{t}} [π_{k} (a_{t} | s_{t}) \cdot q_{π_{k}} (s_{t}, a_{t})] \end{aligned}

核心组件为 Action Value $q_{\pi_k}(s_t,a_t)$ ，它有两种表达方式

\begin{aligned} Elementwise Form: & q_{π_{k}} (s_{t}, a_{t}) = \sum_{r_{t + 1}} [p (r_{t + 1} | s_{t}, a_{t}) r_{t + 1}] + γ \sum_{s_{t + 1}} [p (s_{t + 1} | s_{t}, a_{t}) v_{π_{k}} (s_{t + 1})] \\ Definition Form: & q_{π_{k}} (s, a) = E [G_{t} | S_{t} = s, A_{t} = a] \end{aligned}

要让 Policy Iteration 变得 Model-Free，那就得抛弃 Elementwise Form，直接通过 Mean Estimation 获取 Action Value

这种估计 Action Value 的方法，其名曰 Monte-Carlo Estimation

1.2.1 Monte-Carlo Estimation

$\pi_k$
$(s,a)$ $\pi_k$ $g_{\pi_k}(s,a)$
$g_{\pi_k}(s,a)$ $G_t$ 的采样，采样机制如下
1. $s$ $a_i$ 都要采样 $q_{\pi_k}(s,a_i)$ ，这样才能比较 Action Value 以选择 Optimal Policy
  
  $s$ 时必须或可能采取的某些 Action
2. $(s,a_i)$ 的下一个 State 时才开始完全按照 Policy 走
3. 所以，如果
  - Policy ANDAll Deterministic $\longrightarrow$ $(s,a_i)$ 只可能产生一个 Episode
  - Policy ORNot Deterministic $\longrightarrow$ $(s,a_i)$ 可能产生多个 Episode
$(s,a)$ $N$ $\{g_{\pi_k}^{(i)}(s,a)\}$ $i = 1,2,...,N$ $(s,a)$ Action Value 为
$\begin{aligned} q_{π_{k}} (s, a) & = E [G_{t} | S_{t} = s, A_{t} = a] \\ = \frac{1}{N} \sum_{i = 1}^{N} g_{π_{k}}^{(i)} (s, a) \end{aligned}$

"没 model 的时候得有 Data，没 Data 的时候得有 Model"

顺带一提，Data 在概率论里叫 Sample，在 RL 里叫 Experience

1.2.2 Pseudo Code

与 Policy Iteration 差别不大，不过现在只涉及 Action Value 的问题了

所以直接放弃原本 PE 中求 State Value 的内容，替换为穷举 Episode 直接估计 Action Value

MCPI pseudo code

因为这种算法是基于 Policy Iteration 的，所以只要 Episode 的数量够多，Convergence is guaranteed

然而这种算法效率极低，并不实用

1.2.3 Example

在下图的场景中

$s_2$ $s_4$ 为目的地
Reward 设置
- $r_{forbid} = r_{bound} = -1$
- $r_{target} = 1$
$\gamma = 0.9$
$a_1,a_2,a_3,a_4,a_5 =$ 上, 右, 下, 左, 不动
$\pi_0$
Policy & Environment Models Deterministic

mc policy iteration example

现在演算 Monte-Carlo Policy Iteration

$k=0$ - Policy Evaluation

$9\times5 = 45$ Episodes

$s_1$ 的 5 个 Episode
$\begin{aligned} (s_{1}, a_{1}) Episode: & s_{1} \overset{a_{1}}{\to} s_{1} \overset{a_{1}}{\to} s_{1} \overset{a_{1}}{\to} \dots \\ q_{π_{0}} (s_{1}, a_{1}) = - 1 + γ (- 1) + γ^{2} (- 1) + \dots \\ (s_{1}, a_{2}) Episode: & s_{1} \overset{a_{2}}{\to} s_{2} \overset{a_{3}}{\to} s_{5} \overset{a_{3}}{\to} \dots \\ q_{π_{0}} (s_{1}, a_{2}) = 0 + γ (0) + γ^{2} (0) + γ^{3} (1) + γ^{4} (1) + \dots \\ (s_{1}, a_{3}) Episode: & s_{1} \overset{a_{3}}{\to} s_{4} \overset{a_{2}}{\to} s_{5} \overset{a_{3}}{\to} \dots \\ q_{π_{0}} (s_{1}, a_{3}) = 0 + γ (0) + γ^{2} (0) + γ^{3} (1) + γ^{4} (1) + \dots \\ (s_{1}, a_{4}) Episode: & s_{1} \overset{a_{4}}{\to} s_{1} \overset{a_{1}}{\to} s_{1} \overset{a_{1}}{\to} \dots \\ q_{π_{0}} (s_{1}, a_{4}) = - 1 + γ (- 1) + γ^{2} (- 1) + \dots \\ (s_{1}, a_{5}) Episode: & s_{1} \overset{a_{5}}{\to} s_{1} \overset{a_{1}}{\to} s_{1} \overset{a_{1}}{\to} \dots \\ q_{π_{0}} (s_{1}, a_{5}) = 0 + γ (- 1) + γ^{2} (- 1) + \dots \end{aligned}$
$k=0$ - Policy Improvement

肉眼观察可见最大的 Action Value 为
$(s_{1}, a_{2}) = (s_{1}, a_{3})$
$\pi_1$ 中做如下改进
$π_{1} (a_{2} | s_{1}) = 1 or π_{1} (a_{3} | s_{1}) = 1$

2. Monte-Carlo Exploring Starts

这个是真算法了

2.1 Data Efficiency

在 1.2.2 中有言道：MCPolicyIteration 效率极低——这是在说它的 Data Efficiency 很低

data efficiency

一个 Episode 中有很多 Sub-Episode，复用能省略重复探索的时间，然而 MCPolicyIteration 并没有没有用，就很糟糕（

visit definition

如上图红框所示，Episode 中的一个 State-Action Pair 被称为 Visit，有如下几种类型

Initial-Start Visit Method

MCPolicyIteration 使用 Data 的方式

每个 Episode 的检索都是完全独立的，内部的 Sub-Episode 不会被复用，非常笨拙
First Visit Method

同一个 Episode 中遇到
- 不同的 Visit，开一个 Sub-Episode 复用
- 同一个 Visit，不会被当成 Sub-Episode 复用
Every Visit Method

同一个 Episode 中只要遇到 Visit 就开一个 Sub-Episode 复用

2.2 Policy Update Efficiency

一共就两种方式

Method 1

收集从一个 State-Action Pair 出发的所有 Episode 的 Return，得到 Expectation，然后估计 Action Value
Method 2

用单一一个 Episode 的 Return 直接估计 Action Value，improve policy episode-by-episode

有点 Stochastic Gradient Descent 的感觉，不精确，很狂野，但实际效果不错

2.3 Pseudo Code

算法名称叫 Monte-Carlo Exploring Start (Every Visit Method 版)

Exploring Start 的意思是，确保 $(s_i,a_j)$ 都能被探索到

$(s_i,a_j)$ 都能在从别的 State-Action Pair 出发的 Episode 中被 Visit 到

即，无法 guarantee 一定有机会被复用

MCES pseudo code

这个算法印证了为什么说 “动态规划是从后往前规划的“

$\epsilon$ -Greedy

如果你嫌 Monte-Carlo Exploring Starts 的 "Exploring Starts" 条件麻烦

那就可以用这个基于 Soft Policy 的算法，让 Policy 从 Deterministic 变得 Stochastic

Soft Policy = Probability to take any Action is Positive

$\epsilon$ -Greedy

$\epsilon$ -Greedy Policy

\begin{matrix} π_{k + 1} (a_{t} | s_{t}) = {\begin{cases} 1 - ϵ \cdot \frac{| A (s_{t}) | - 1}{| A (s_{t}) |} & a_{t} = a_{k}^{*} (s_{t}) \\ ϵ \cdot \frac{1}{| A (s_{t}) |} & a_{t} \neq a_{k}^{*} (s_{t}) \end{cases} where a_{k}^{*} = \arg max_{a_{t}} q_{k} (s_{t}, a_{t}) \end{matrix}

where

$\epsilon \in [0,1]$
$\abs{\mathcal{A}(s_t)}\longrightarrow$ $s_t$

特性如下

$\geq$ Other Actions 的概率
可以调节 "Exploration" 与 "Exploitation" 的平衡
- 完全 Exploitation $\longrightarrow\epsilon = 0$
  
  此时是纯 Exploitation，和一般的 Greedy Policy 没有区别
  
  看起来比较 “短视”
  $\begin{aligned} 1 - ϵ \cdot \frac{| A (s_{t}) | - 1}{| A (s_{t}) |} & = 1 \\ ϵ \cdot \frac{1}{| A (s_{t}) |} & = 0 \end{aligned}$
- 完全 Exploration $\longrightarrow\epsilon = 1$
  
  此时 Greedy Action 与 Other Actions 概率相等，显然更加 "Exploration"
  
  看起来比较 “远视”，但不如说是完全不带判断的 “盲视”
  $\begin{aligned} 1 - ϵ \cdot \frac{| A (s_{t}) | - 1}{| A (s_{t}) |} & = \frac{1}{| A (s_{t}) |} \\ ϵ \cdot \frac{1}{| A (s_{t}) |} & = \frac{1}{| A (s_{t}) |} \end{aligned}$
- 二者的平衡 $\longrightarrow 0<\epsilon<1$

$\epsilon$ -Greedy Policy 能有更强的探索性，以此完全摆脱 Exploring Starts

但缺点是牺牲了 Optimality

(see 3.3.1, 3.3.2)

[ ! WARNING ! ]

$\epsilon$ 取值不能太大！！！

$\epsilon = 0$ ，但是不能一直取太大的值！！！

(see 3.3.1, 3.3.2)

3.2 Pseudo Code

well，只需要把 2.3 的 Exploring Start 的 Pseudo Code 中 Policy Improvement 的部分改为

epsilon greedy policy improvement

$\epsilon$ 需要放到 parameter list 里

（真的有人会忘记这种事吗？蠢爆了好吧，但我觉得还是提醒一下吧）

3.3 Examples & Properties

3.3.1 Exploration & Exploitation

epsilon difference

3.3.2 Optimality

固定的 Policy $\epsilon$ 后得到的 Policy 和 State Value

$\epsilon = 0$ ）的 Policy 保持一致，即概率最大的动作是一致的

但是 State Value 的变化说明， $\epsilon$ 会导致Policy 的 Optimality 会下降

$\epsilon=0.5$ 的时候，Target 的 State Value 已经是负数了

原因在于 Target 附近全是 Forbidden Area，而探索性的提升会让处于 Target 位置的 Agent 有更高的概率踩到 Forbidden Area

optimality

3.3.3 Consistency

$\epsilon$ $\epsilon$ -Greedy Policy

$\epsilon$ $\epsilon = 0$ $\epsilon = 0.5$ 的时候已经完全崩坏了

consistency

1. Monte-Carlo Basics

1.1 Review: 大数定理

1.2 无模型 Policy Iteration

1.2.1 Monte-Carlo Estimation

1.2.2 Pseudo Code

1.2.3 Example

2. Monte-Carlo Exploring Starts

2.1 Data Efficiency

2.2 Policy Update Efficiency

2.3 Pseudo Code

3. Monte-Carlo ϵ\epsilon-Greedy

3.1 ϵ\epsilon-Greedy Policy

3.2 Pseudo Code

3.3 Examples & Properties

3.3.1 Exploration & Exploitation

3.3.2 Optimality

3.3.3 Consistency

$\epsilon$ -Greedy

$\epsilon$ -Greedy Policy