從Markov Process到Markov Decision Process

Recall: Markov Property

information state: sufficient statistic of history
State $s_t$ is Markov if and only if:
$p(s_{t+1}|s_t,a_t)=p(s_{t+1}|h_t,a_t)$
Future is independent of past given present

Markov Process or Markov Chain

無記憶性隨機過程

具有馬爾科夫性質的隨機狀態的序列

馬爾科夫過程(Markov Process)的定義：

S是一個(有限)的狀態集(s $\in S$ )
P是動態/變遷模型，它指定了 $p(s_{t+1}=s'|s_t=s)$

注意：沒有獎勵(reward)，也沒有動作(actions)

如果狀態數(N)是有限的，可以把P表示成一個矩陣：

Markov Reward Process (MRP)

馬爾科夫獎勵過程 = 馬爾科夫過程 + 獎勵

馬爾科夫獎勵過程(MRP)的定義:

S是一個狀態的有限集(s $\in$ S)
P是動態/變遷模型，它指定了 $P(s_{t+1}=s'|s_t=s)$
R是一個獎勵函數 $R(s_t=s)=\mathbb{E}[r_t|s_t=s]$
折扣因子 $\gamma \in[0,1]$

注意：沒有動作

如果狀態數(N)有限，R可以被表示成一個向量。

Return & Value Function

窗口(horizon)的定義：

每一輪(episode)的時間步數目
可以是有限的
也被稱作有限馬爾科夫獎勵過程

返回(return)的定義：

從t開始長達整個窗口的打折獎勵總和:
$G_t=r_t+\gamma r_{t+1}+\gamma^2r_{t+2}+\gamma^3r_{t+3}+...$

狀態獎勵方程(State Value Function foe a MRP)的定義：

從狀態s開始的返回的期望
$V(s) = \mathbb{E}[G_t|s_t=s]=\mathbb{E}[r_t+\gamma r_{t+1}+\gamma^2r_{t+2}+\gamma^3r_{t+3}+...|s_t=s]$

如果過程是確定的，那麼返回和獎勵是相等的；大部分情況下過程是隨機的，它們會是不同的。

Discount Factor

折扣因子一方面是由於被啓發創造的，另一方面也是爲了數學上的方便。

數學上的方便(避免無限的返回(函數)和價值(函數))
人類通常是以折扣因子小於1的方式行動的
$\gamma=0$ 僅關心即時獎勵
$\gamma=1$ 未來獎勵將等於即時獎勵
如果一輪(episode)的長度一直是有限的，可以使用 $\gamma=1$

Computing the Value of a Markov Reward Process

可以通過仿真(simulation)來估計
實驗平均接近真實期望值的準確度大致在 $\frac{1}{\sqrt{n}}$ ，n代表仿真次數。
對返回取平均
專注不等式(Concentration inequalities)限定專注於期望值的速度
不需要對馬爾科夫結構做出假設

但是上述過程沒有利用任何world是馬爾科夫的這個事實。爲了得到更好的估計有額外的結構。

馬爾科夫性質產生額外的結構。
(the future is independent of past given present)
MRP的價值函數滿足

矩陣形式

然後就可以以解析方式求解：

$V=R+\gamma PV$
$V-\gamma PV = R$
$(I - \gamma P) V = R$
$V = (I -\gamma P)^{-1} R$

直接求解的算法複雜度是 $O(n^3)$

矩陣P必須是定義良好即能求逆的。在以上過程中，我們假定是固定的horizon，價值函數是固定的，所以狀態的下一個狀態可以指向自己，self-loop是允許存在的。

一定可以求逆嗎？

因爲P是馬爾科夫矩陣(隨機矩陣)，那麼它的特徵值將總是小於等於1，如果折扣因子小於1，那麼 $I-\gamma P$ 總是可逆的(證明略，感興趣的朋友可以去查一下，博主數學不是很好。)。

Iterative Algorithm for Computing Value of a MRP

另一種求解方法是動態規劃：

Initializa $V_0(s) = 0$ for all s

For k = 1 until convergence
	For all s in S

$V_k(s) = R(s) + \gamma \sum_{s^{'} \in S}P(s^{'}|s)V_{k-1}(s^{'})$

計算複雜度：
$O(|s|^2)$ for each iteration (|S| = N)

收斂的條件通常使用範數來衡量，即
$|V_k - V_{k-1}| < \epsilon$

這種計算方式的優勢在於每次迭代平方複雜度，並且還有一些稍後會提及的引入actions之後的增益。

總結起來，計算MRP的價值有三種方法：

模擬仿真(Simulation)
解析求解(Analytic solve, requires us a step, a finite set of states)
動態規劃(DP)

Markov Decision Proces(MDP)

MDP = MRP + actions.

MDP的定義，MDP是一個五元組(quintuple)(S,A,P,R, $\gamma$ ):

S 是一個有限的馬爾科夫狀態集 $s \in S$
A 是一個有限的動作集 $a \in A$
P 是針對每一個動作的動態/遷移模型，它指定了 $P(s_{t+1}=s' | s_t = s, a_t = a)$
R是一個獎勵函數(回報函數)
$R(s_t = s, a_t = a) = \mathbb{E}[r_t|s_t - s, a_t = a]$
折扣因子 $\gamma \in [0, 1]$

MDP Policies

策略(Policy)指定了在每一個狀態採取什麼動作
- 可以是確定性的也可以是隨機的
更一般性，把策略考慮成一種條件分佈
-給定一個狀態，指定一個動作上的分佈
Policy： $\pi(a|s) = P(a_t = a | s_t = s)$

MDP + Policy

MDP + Policy可以指定一個Markov Reward Process，因爲Policy裏指定了每個狀態的動作，MDP就坍縮成了MRP。

更確切的講，它們指定的是 $MRP(S, R^\pi, P^\pi, \gamma)$ :
$R^\pi=\sum_{a \in A}\pi(a|s)R(s,a)$
$P^\pi(s'|s) = \sum_{a \in A}\pi(a|s)P(s'|s,a)$

這隱含着，只要你有確定的策略，我們可以使用前述的所有用來計算MRP的價值的相同方法，通過使用定義一個 $R^\pi$ 和 $P^\pi$ ，來計算MDP的一個策略的價值。

MDP Policy Evaluation, Iterative Algorithm

Initialize $V_0(s) = 0$ for all s

For k = 1 until convergence
	For all s in S

$V_k^\pi(s) = r(s,\pi(s)) + \gamma\sum_{s' \in S}p(s'|s,\pi(s))V_{k-1}^\pi(s')$

對於一個特定的策略來說，這是一個Bellman backup。

在RL文獻中，上面等式的右邊被稱作"Bellman backup"。狀態或狀態 - 動作對的Bellman backup是Bellman方程的右側：即時獎勵加下一個值，這是一個迭代的過程，因此叫backup。

仔細對比一下，跟前面所述MRT計算價值是一樣的，只不過因爲有固定的策略，所以我們使用策略來索引獎勵。即爲了學習一個特定策略的價值，我們通過總是採取策略所指定的動作來初始化價值函數。

練習計算一步迭代

$V_{k+1}(s_6)=r(s_6)+\gamma*(0.5*0+0.5*10)$
$V_{k+1}(s_6)=0.5*(0.5*10)=2.5$

這個真的很簡單，單純的代公式，只要前面所述內容你都記住了，就直接能理解。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

從Markov Process到Markov Decision Process

Recall: Markov Property

Markov Process or Markov Chain

Markov Reward Process (MRP)

Return & Value Function

Discount Factor

Computing the Value of a Markov Reward Process

Iterative Algorithm for Computing Value of a MRP

Markov Decision Proces(MDP)

MDP Policies

MDP + Policy

MDP Policy Evaluation, Iterative Algorithm

練習計算一步迭代

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Compute the Optimal Policy & the Optimal Value 計算最佳策略和計算最佳價值

Monte Carlo Tree Search (MCTS) 蒙特·卡羅爾樹搜索

Imitation Learning in Large State Spaces 大規模狀態空間下的模仿學習

注意力機制(Attention Mechanism)

L1正則和L2正則的區別詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

從Markov Process到Markov Decision Process

Recall: Markov Property

Markov Process or Markov Chain

Markov Reward Process (MRP)

Return & Value Function

Discount Factor

Computing the Value of a Markov Reward Process

Iterative Algorithm for Computing Value of a MRP

Markov Decision Proces(MDP)

MDP Policies

MDP + Policy

MDP Policy Evaluation, Iterative Algorithm

練習 計算一步迭代

練習計算一步迭代