2021 重啓強化學習(2)—馬爾可夫決策過程

原創

2021-03-22 19:07

如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說，注意頭像和簡書使用頭像一致。

馬爾可夫決策過程是強化學習的一個基本框架，

在概率論更多時候我們都是研究隨機變量，其中包括隨機變量和隨機變量之間的關係。有一種隨機變量關係他們是在時序有一種相互關係。那麼如果我們將這樣時序相關關聯一組隨機變量看作一個整體來研究，這就是隨機過程。

馬爾可夫鏈是一種特殊的隨機過程，是具備馬爾可夫屬性的隨機過程。在之前我們介紹馬爾可夫性質說到兩個性質分別是

也就是下一個狀態只取決於當前狀態，而與當前狀態的之間狀態都沒有關係。如果說某一個過程是滿足馬爾可夫特性的，在未來轉移和過去是獨立，只與現在狀態有關，把具有這性質的隨機過程就稱爲馬爾可夫鏈

馬爾可夫假設一個初衷就是爲簡化計算。

$p(S_{t+1}|S_t,a_t) = p(S_{t+1}|h_t,a_t)$

通常我們研究的對象都是離散的狀態，其狀態是有限的。描述馬爾可夫狀態轉移矩陣是用來描述動態特性，可以可以將其稱爲狀態轉移函數、或者狀態轉移概率都可以。

$p = \begin{bmatrix} P(s_1|s_1) & P(s_2|s_1) & \cdots & P(s_N|s_1)\\ P(s_1|s_2) & P(s_2|s_2) & \cdots & P(s_N|s_2)\\ \end{bmatrix}$

這就是軌跡概念，每一條鏈都是一條軌跡

馬爾可夫獎勵過程，就是馬爾可夫鏈再加上一個獎勵(Reward)函數

定義馬爾可夫獎勵過程(MRP)
- S 表示狀態集合 $s \in S$
- P 是動態/轉移模型可以表示爲 $P(S_{t+1} = s^{\prime}|s_t = s)$
- R 是獎勵函數 $R(s_t = s) = \mathbb{E}[r_t|s_t = s]$
- Discount factor(折扣量) $\gamma \in [0,1]$

引入獎勵 $R = [5,0,0,0,0,0,7]$ ,獎勵過程看成隨波逐流，隨着事先定義好狀態轉移進行流動。

馬爾可夫決策過程(MDP)，當我們買了某隻股票，或者投擲硬幣進行下注，之後我們就能等待結果，根據結果來得到回報。馬爾可夫決策過程(MDP) 會根據不同狀態進行不同動作。

S 表示狀態的集合
A 表示動作的集合，對於任意 $s \in S$ 通常來用 $A(s)$ 表示動作集合是針對於某一個狀態來說
$\mathbb{P}$ 是 Action 是動態/轉移模型 $P(S_{t+1} = s^{\prime},R_{t+1}=r|s_t = s,a_t = a)$ ，也就是 MDP 動態特性
P 狀態轉移函數 $P(S_{t+1} = s^{\prime}|s_t = s,a_t = a) = \sum_{r \in R} p(s^{\prime},r|s,a)$
R 是獎勵函數 $R(s_t = s,a_t = a) = \mathbb{E}[r_t|s_t = s,a_t = a]$
折扣係數 $\gamma \in [0,1]$
MDP 是 $(S,A,P,R,\gamma)$