人工智能教程 - 專業選修課程4.3.5 - 強化學習 5.馬爾科夫過程

馬爾科夫決策過程

Markov Decision Processes(MDP)

MDP被描述成一個針對於強化學習的環境 Markov decision processes formally describe an environment for reinforcement learning
完全可觀察環境，我們在一個已知狀態下 Where the environment is fully observable
比如，當前的狀態已經特徵化告訴給了智能體 i.e. The current state completely characterises the process
所有問題都可以用MDP來進行形式化描述 Almost all RL problems can be formalised as MDPs, e.g.
- 最優控制可以把其轉化稱爲連續的MDP問題。 Optimal control primarily deals with continuous MDPs
- 部分可觀測問題可以被轉化爲MDP Partially observable problems can be converted into MDPs
- Bandits are MDPs with one state

馬爾科夫屬性

Markov Property

未來的狀態獨立於過去的狀態，它只跟現在這一刻的狀態有關。

“The future is independent of the past given the present”

定義

A state $S_t$ is Markov if and only if

$\mathbb{P}[S_{t+1}|S_t]=\mathbb{P}[S_{t+1}|S_1....,S+t]$

狀態轉移概率

the state transition probability

For a Markov state s and successor state s’, the state transition probability is defined by

狀態s轉移到後繼狀態s’的概率

$\mathbb{P}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t=s]$

State transition matrix P defines transition probabilities from all states s to all successor states s’

$P = from \begin{bmatrix} P_{11}&.&.&P_{1n}\\.\\.\\.\\P_{n1}&.&.&P_{nn}\end{bmatrix}$

where each row of the matrix sums to 1

馬爾科夫過程定義

馬爾科夫過程基本上是一個隨機的過程，其有一個具有馬爾科夫屬性的隨機狀態的序列 $S_1,S_2,...,$ .

定義這個序列所需的僅僅是一個狀態空間S和一個轉移概率P

A Markov Process (or Markov Chain) is a tuple <S, P>

狀態空間S是一個state的集合，

完整定義了系統的動態變化過程。如：這個系統模擬的是機器人演化的過程。

例子：學生馬爾科夫鏈

取樣 Sample

馬爾科夫鏈中的取樣就是一個序列,一個從初始狀態得到的狀態序列 from $S_1 = C1$

$S_1,S_2,...,S_T$

學生馬爾科夫鏈中的取樣情況：

C1 C2 C3 Pass Sleep
C1 FB FB C1 C2 Sleep
C1 C2 C3 Pub C2 C3 Pass Sleep
C1 FB FB C1 C2 C3 Pub C1 FB FB
FB C1 C2 C3 Pub C2 Sleep

轉移矩陣

當隨着時間的變化，概率發生變化時，有兩種解決方案：

不穩定的 non-sationaty MDP，逐漸調整自己的解決算法，來找到最好的解決方案
你已經有了一個不穩定的動態過程，你可以讓它變成一個更加複雜的馬爾科夫過程，你可以假設C1-FB的概率都會依賴於你再當前state上停留多久，這樣可以增加他們的狀態概率。就像一個計數器，你在FB上停留了多久，得到了很多不同的states

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

人工智能教程 - 專業選修課程4.3.5 - 強化學習 5.馬爾科夫過程

馬爾科夫決策過程

馬爾科夫屬性

未來的狀態獨立於過去的狀態，它只跟現在這一刻的狀態有關。

定義

$\mathbb{P}[S_{t+1}|S_t]=\mathbb{P}[S_{t+1}|S_1....,S+t]$

狀態轉移概率

狀態s轉移到後繼狀態s’的概率

$\mathbb{P}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t=s]$

State transition matrix P defines transition probabilities from all states s to all successor states s’

$P = from \begin{bmatrix} P_{11}&.&.&P_{1n}\\.\\.\\.\\P_{n1}&.&.&P_{nn}\end{bmatrix}$

where each row of the matrix sums to 1

馬爾科夫過程定義

馬爾科夫過程基本上是一個隨機的過程，其有一個具有馬爾科夫屬性的隨機狀態的序列 $S_1,S_2,...,$ .

定義這個序列所需的僅僅是一個狀態空間S和一個轉移概率P

A Markov Process (or Markov Chain) is a tuple <S, P>

完整定義了系統的動態變化過程。如：這個系統模擬的是機器人演化的過程。

例子：學生馬爾科夫鏈

取樣 Sample

馬爾科夫鏈中的取樣就是一個序列,一個從初始狀態得到的狀態序列 from $S_1 = C1$

$S_1,S_2,...,S_T$

學生馬爾科夫鏈中的取樣情況：

轉移矩陣

當隨着時間的變化，概率發生變化時，有兩種解決方案：

人工智能教程 - 學科基礎課程2.6 - 機器學習導論 14.降維,數據壓縮,可視化數據,PCA簡介

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 7.在線算法,貪心算法,完美匹配

人工智能筆記之專業選修課4.1.5 - 博弈論 1.退避機制，博弈基本概念，重要元素，形式

人工智能教程 - 專業選修課程4.3.5 - 強化學習 12.無模型預測,蒙特卡羅強化學習

人工智能筆記之專業選修課4.1.5 - 博弈論 2.經典囚徒困境等經典博弈場景

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

人工智能教程 - 專業選修課程4.3.5 - 強化學習 5.馬爾科夫過程

馬爾科夫決策過程

馬爾科夫屬性

未來的狀態獨立於過去的狀態，它只跟現在這一刻的狀態有關。

定義

P[St+1∣St]=P[St+1∣S1....,S+t]\mathbb{P}[S_{t+1}|S_t]=\mathbb{P}[S_{t+1}|S_1....,S+t]P[St+1​∣St​]=P[St+1​∣S1​....,S+t]

狀態轉移概率

狀態s轉移到後繼狀態s’的概率

Pss′=P[St+1=s′∣St=s]\mathbb{P}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t=s]Pss′​=P[St+1​=s′∣St​=s]

State transition matrix P defines transition probabilities from all states s to all successor states s’

P=from[P11..P1n...Pn1..Pnn]P = from \begin{bmatrix} P_{11}&.&.&P_{1n}\\.\\.\\.\\P_{n1}&.&.&P_{nn}\end{bmatrix}P=from⎣⎢⎢⎢⎢⎡​P11​...Pn1​​..​..​P1n​Pnn​​⎦⎥⎥⎥⎥⎤​

where each row of the matrix sums to 1

馬爾科夫過程定義

馬爾科夫過程基本上是一個隨機的過程，其有一個具有馬爾科夫屬性的隨機狀態的序列S1,S2,...,S_1,S_2,...,S1​,S2​,...,.

定義這個序列所需的僅僅是一個狀態空間S和一個轉移概率P

A Markov Process (or Markov Chain) is a tuple <S, P>

完整定義了系統的動態變化過程。如：這個系統模擬的是機器人演化的過程。

例子：學生馬爾科夫鏈

取樣 Sample

馬爾科夫鏈中的取樣就是一個序列,一個從初始狀態得到的狀態序列 from S1=C1S_1 = C1S1​=C1

S1,S2,...,STS_1,S_2,...,S_TS1​,S2​,...,ST​

學生馬爾科夫鏈中的取樣情況：

轉移矩陣

當隨着時間的變化，概率發生變化時，有兩種解決方案：

$\mathbb{P}[S_{t+1}|S_t]=\mathbb{P}[S_{t+1}|S_1....,S+t]$

$\mathbb{P}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t=s]$

$P = from \begin{bmatrix} P_{11}&.&.&P_{1n}\\.\\.\\.\\P_{n1}&.&.&P_{nn}\end{bmatrix}$

馬爾科夫過程基本上是一個隨機的過程，其有一個具有馬爾科夫屬性的隨機狀態的序列 $S_1,S_2,...,$ .

馬爾科夫鏈中的取樣就是一個序列,一個從初始狀態得到的狀態序列 from $S_1 = C1$

$S_1,S_2,...,S_T$