馬爾科夫決策過程
Markov Decision Processes(MDP)
-
MDP被描述成一個針對於強化學習的環境 Markov decision processes formally describe an environment for reinforcement learning
-
完全可觀察環境,我們在一個已知狀態下 Where the environment is fully observable
-
比如,當前的狀態已經特徵化告訴給了智能體 i.e. The current state completely characterises the process
-
所有問題都可以用MDP來進行形式化描述 Almost all RL problems can be formalised as MDPs, e.g.
-
最優控制可以把其轉化稱爲連續的MDP問題。 Optimal control primarily deals with continuous MDPs
-
部分可觀測問題可以被轉化爲MDP Partially observable problems can be converted into MDPs
-
Bandits are MDPs with one state
-
馬爾科夫屬性
Markov Property
未來的狀態獨立於過去的狀態,它只跟現在這一刻的狀態有關。
“The future is independent of the past given the present”
定義
A state is Markov if and only if
狀態轉移概率
the state transition probability
For a Markov state s and successor state s’, the state transition probability is defined by
狀態s轉移到後繼狀態s’的概率
State transition matrix P defines transition probabilities from all states s to all successor states s’
where each row of the matrix sums to 1
馬爾科夫過程定義
馬爾科夫過程基本上是一個隨機的過程,其有一個具有馬爾科夫屬性的隨機狀態的序列.
定義這個序列所需的僅僅是一個狀態空間S和一個轉移概率P
A Markov Process (or Markov Chain) is a tuple <S, P>
- 狀態空間S是一個state的集合,
完整定義了系統的動態變化過程。如:這個系統模擬的是機器人演化的過程。
例子:學生馬爾科夫鏈
取樣 Sample
馬爾科夫鏈中的取樣就是一個序列,一個從初始狀態得到的狀態序列 from
學生馬爾科夫鏈中的取樣情況:
- C1 C2 C3 Pass Sleep
- C1 FB FB C1 C2 Sleep
- C1 C2 C3 Pub C2 C3 Pass Sleep
- C1 FB FB C1 C2 C3 Pub C1 FB FB
FB C1 C2 C3 Pub C2 Sleep
轉移矩陣
當隨着時間的變化,概率發生變化時,有兩種解決方案:
- 不穩定的 non-sationaty MDP,逐漸調整自己的解決算法,來找到最好的解決方案
- 你已經有了一個不穩定的動態過程,你可以讓它變成一個更加複雜的馬爾科夫過程,你可以假設C1-FB的概率都會依賴於你再當前state上停留多久,這樣可以增加他們的狀態概率。就像一個計數器,你在FB上停留了多久,得到了很多不同的states