目錄
馬爾可夫決策過程MDP: a Markov reward process with decisions
Bellman最優方程Optimality Equation
馬爾可夫決策過程MDP: a Markov reward process with decisions
策略
給定狀態s下的動作的分佈函數就是policy ,它完全定義了agent的行爲。
-
MDP過程僅取決於當前的狀態,而不是歷史信息H,也就是說,策略是穩態分佈(stationary ,time-independent)
- 給定一個 MDP 和一個 policy π,
- 狀態序列 ..是一個馬爾可夫過程
- 狀態序列和回報序列組成的是馬爾科夫回報過程
其中
值函數
根據策略 採取的行爲不同,所得的回報也不盡相同。
狀態-值函數反映了在狀態s處,根據策略 對所有的動作採樣,的結果會有多好。
- 一個MDP的狀態 - 值函數 是從狀態s開始,並後續採取策略 的回報的期望值:
- 動作 - 值函數 是在狀態s 採取動作a,並後續採取策略 的回報的期望值
Example: State-Value Function for Student MDP
Bellman 期望公式
- state-value function = immediate reward + discounted value of successor state,狀態值函數可以分解爲 直接彙報加上後繼狀態的折扣State值。
- 動作-值函數可以分解爲
Example: Bellman期望公式 in Student MDP
只考慮紅色圓圈的這個state,它表示class 3 ,我們要驗證 用Bellman期望公式計算的值函數無惡是維7.4.
在class 3 這個狀態下,去pub 和學習的概率各爲50%, 在這個策略下,以50%的概率去pub後又各以0.2,0.4,0.4的概率去class1,class2, class3, .
Bellman期望公式 的矩陣形式
求出解的形式:
最優值函數 Optimal Value Function
根據MDP可以得到不同的策略,最優值函數指出了MDP中的最佳表現,當我們已知一個MDP的最優值 時,可認爲已經求解出這個MDP了。
最優狀態-值函數: the maximum value function over all policies
最優動作-值函數: the maximum action-value function over all policies
最優策略
怎樣可以判定一個策略要優於另一個策略?這需要我們先對所有策略定義一個偏序[ partial ordering]:其中表示任意的兩個策略,在所有狀態s下,一個策略的值函數都大於等於另一個策略的值函數時,我們認爲,
Theorem
對任一MDP,總存在一個最優策略 要優於其他所有策略:
當有多個最優策略時,所有的最優策略的最優值函數相等:
當有多個最優策略時,所有的最優策略的最優動作-值函數相等:
怎麼求出最優策略? —— 最大化 ,
對任一的MDP,總存在一個確定的最優策略,如果已知,那麼最優策略可立即求解。
Bellman最優方程Optimality Equation
貝爾曼最優方程描述瞭如何求解MDP方程,如何把它們和最優值函數聯繫起來。
貝爾曼最優方程時非線性的,通常沒有閉解【closed form solution】,但是有很多迭代方法可以求解:Value Iteration值迭代、 Policy Iteration策略迭代、 Q-learning 、Sarsa。
MDPs 的擴展
- Infinite and continuous MDPs ; 有以下幾種情形:
無限可數的狀態/動作空間;
連續的狀態/動作空間:線性二次模型的閉解形式【linear quadratic model (LQR)】
連續時間:需要用偏微分方程、Hamilton-Jacobi-Bellman (HJB)方程、當時間步趨於0時是貝爾曼方程的極限情形。
- Partially observable MDPs 【POMDPs】:具有隱狀態的MDP
Belief States
history 是動作、觀測和回報構成的序列:
- belief state b(h) 是基於歷史數據H的狀態的概率分佈,
Reductions of POMDPs
歷史信息滿足馬爾可夫性;信念狀態 也滿足馬爾可夫性;
POMDP 可以被分解爲一個 (infinite) history tree 和 belief state tree
- Undiscounted, average reward MDPs
Ergodic Markov Process 遍歷馬氏過程
- 循環性Recurrent: 每個狀態會被訪問無數次
- 非週期的 Aperiodic : 每個狀態的訪問沒有系統週期
Theorem
一個遍歷馬氏過程具有一個極限穩態分佈 ,它滿足以下性質:
如果一個馬氏鏈 是由一個有遍歷性的策略推導而來,那麼這個MDP具有遍歷性【ergodic.】
對任一策略,一個遍歷MDP的 是獨立於起始狀態的, 是每個時間步的平均回報。
Average Reward Value Function
undiscounted, ergodic MDP 的值函數可以表示爲平均回報的函數。
是以s爲起始狀態的超額回報【extra reward】
相應的平均回報的貝爾曼方程可表示爲