2021 重啓強化學習(2)—馬爾可夫決策過程

如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說,注意頭像和簡書使用頭像一致。

馬爾可夫決策過程 MDP(Markov Decision Processes)

馬爾可夫決策過程是強化學習的一個基本框架,

馬爾可夫鏈

在概率論更多時候我們都是研究隨機變量,其中包括隨機變量和隨機變量之間的關係。有一種隨機變量關係他們是在時序有一種相互關係。那麼如果我們將這樣時序相關關聯一組隨機變量看作一個整體來研究,這就是隨機過程

馬爾可夫鏈是一種特殊的隨機過程,是具備馬爾可夫屬性的隨機過程。在之前我們介紹馬爾可夫性質說到兩個性質分別是

  • 馬爾可夫假設
  • 觀測獨立假設

也就是下一個狀態只取決於當前狀態,而與當前狀態的之間狀態都沒有關係。如果說某一個過程是滿足馬爾可夫特性的,在未來轉移和過去是獨立,只與現在狀態有關,把具有這性質的隨機過程就稱爲馬爾可夫鏈

  • 過去狀態集合 h_t = \{ S_1,S_2,S_3,\cdots, S_t \}
  • p(S_{t+1}|S_t) = p(S_{t+1}|h_t)

馬爾可夫假設一個初衷就是爲簡化計算。

狀態空間模型

  • HMM
  • Kalman Filter
  • Paticle Filter

p(S_{t+1}|S_t,a_t) = p(S_{t+1}|h_t,a_t)

狀態轉移矩陣

通常我們研究的對象都是離散的狀態,其狀態是有限的。描述馬爾可夫狀態轉移矩陣是用來描述動態特性,可以可以將其稱爲狀態轉移函數、或者狀態轉移概率都可以。

p = \begin{bmatrix} P(s_1|s_1) & P(s_2|s_1) & \cdots & P(s_N|s_1)\\ P(s_1|s_2) & P(s_2|s_2) & \cdots & P(s_N|s_2)\\ \end{bmatrix}

馬爾可夫鏈實例

這就是軌跡概念,每一條鏈都是一條軌跡

  • S_3, S_4,S_5,S_6,S_6
  • S_3, S_2,S_3,S_2,S_1
  • S_3, S_4,S_4,S_5,S_5

馬爾可夫獎勵過程(MRPs)

馬爾可夫獎勵過程,就是馬爾可夫鏈再加上一個獎勵(Reward)函數

  • 定義馬爾可夫獎勵過程(MRP)
    • S 表示狀態集合s \in S
    • P 是動態/轉移模型可以表示爲P(S_{t+1} = s^{\prime}|s_t = s)
    • R 是獎勵函數 R(s_t = s) = \mathbb{E}[r_t|s_t = s]
    • Discount factor(折扣量)\gamma \in [0,1]

引入獎勵R = [5,0,0,0,0,0,7],獎勵過程看成隨波逐流,隨着事先定義好狀態轉移進行流動。

馬爾可夫決策過程(MDPs)

馬爾可夫決策過程(MDP),當我們買了某隻股票,或者投擲硬幣進行下注,之後我們就能等待結果,根據結果來得到回報。馬爾可夫決策過程(MDP) 會根據不同狀態進行不同動作。

  • S 表示狀態的集合
  • A 表示動作的集合,對於任意s \in S 通常來用 A(s) 表示動作集合是針對於某一個狀態來說
  • \mathbb{P} 是 Action 是動態/轉移模型 P(S_{t+1} = s^{\prime},R_{t+1}=r|s_t = s,a_t = a),也就是 MDP 動態特性
  • P 狀態轉移函數 P(S_{t+1} = s^{\prime}|s_t = s,a_t = a) = \sum_{r \in R} p(s^{\prime},r|s,a)
  • R 是獎勵函數 R(s_t = s,a_t = a) = \mathbb{E}[r_t|s_t = s,a_t = a]
  • 折扣係數\gamma \in [0,1]
  • MDP 是(S,A,P,R,\gamma)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章