人工智能教程 - 專業選修課程4.3.5 - 強化學習 5.馬爾科夫過程

馬爾科夫決策過程

Markov Decision Processes(MDP)

  • MDP被描述成一個針對於強化學習的環境 Markov decision processes formally describe an environment for reinforcement learning

  • 完全可觀察環境,我們在一個已知狀態下 Where the environment is fully observable

  • 比如,當前的狀態已經特徵化告訴給了智能體 i.e. The current state completely characterises the process

  • 所有問題都可以用MDP來進行形式化描述 Almost all RL problems can be formalised as MDPs, e.g.

    • 最優控制可以把其轉化稱爲連續的MDP問題。 Optimal control primarily deals with continuous MDPs

    • 部分可觀測問題可以被轉化爲MDP Partially observable problems can be converted into MDPs

    • Bandits are MDPs with one state

馬爾科夫屬性

Markov Property

未來的狀態獨立於過去的狀態,它只跟現在這一刻的狀態有關。

“The future is independent of the past given the present”

定義

A state StS_t is Markov if and only if

P[St+1St]=P[St+1S1....,S+t]\mathbb{P}[S_{t+1}|S_t]=\mathbb{P}[S_{t+1}|S_1....,S+t]

狀態轉移概率

the state transition probability

For a Markov state s and successor state s’, the state transition probability is defined by

狀態s轉移到後繼狀態s’的概率

Pss=P[St+1=sSt=s]\mathbb{P}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t=s]

State transition matrix P defines transition probabilities from all states s to all successor states s’

P=from[P11..P1n...Pn1..Pnn]P = from \begin{bmatrix} P_{11}&.&.&P_{1n}\\.\\.\\.\\P_{n1}&.&.&P_{nn}\end{bmatrix}

where each row of the matrix sums to 1

馬爾科夫過程定義

馬爾科夫過程基本上是一個隨機的過程,其有一個具有馬爾科夫屬性的隨機狀態的序列S1,S2,...,S_1,S_2,...,.

定義這個序列所需的僅僅是一個狀態空間S和一個轉移概率P

A Markov Process (or Markov Chain) is a tuple <S, P>
  • 狀態空間S是一個state的集合,
完整定義了系統的動態變化過程。如:這個系統模擬的是機器人演化的過程。

例子:學生馬爾科夫鏈

在這裏插入圖片描述

取樣 Sample

馬爾科夫鏈中的取樣就是一個序列,一個從初始狀態得到的狀態序列 from S1=C1S_1 = C1

S1,S2,...,STS_1,S_2,...,S_T

學生馬爾科夫鏈中的取樣情況:

  • C1 C2 C3 Pass Sleep
  • C1 FB FB C1 C2 Sleep
  • C1 C2 C3 Pub C2 C3 Pass Sleep
  • C1 FB FB C1 C2 C3 Pub C1 FB FB
    FB C1 C2 C3 Pub C2 Sleep

轉移矩陣

在這裏插入圖片描述

當隨着時間的變化,概率發生變化時,有兩種解決方案:

  1. 不穩定的 non-sationaty MDP,逐漸調整自己的解決算法,來找到最好的解決方案
  2. 你已經有了一個不穩定的動態過程,你可以讓它變成一個更加複雜的馬爾科夫過程,你可以假設C1-FB的概率都會依賴於你再當前state上停留多久,這樣可以增加他們的狀態概率。就像一個計數器,你在FB上停留了多久,得到了很多不同的states
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章