1.值函數定義
1.1 V函數
我們先看一下經典的最短路問題,假設我們要求出起點s到終點g的最短路
我們定義V∗(s)爲s到終點g的最短路,V∗(f) 爲f到終點g的最短路,以此類推,爲了求出這個最短路,我們從終點開始算起:
V∗(g)V∗(f)V∗(d)=0=1+V∗(g)=1=min{3+V∗(g),1+V∗(f)}
對終點g來說,自己到自己的最短路爲0。
對頂點f來說,只有它自己和終點g有路徑,故頂點f到g的最短路由這條路徑的權重和V∗(g)相加
對頂點d來說,有兩個選擇,可以選擇權值爲3的路徑到g,也可以選擇權值爲1的路徑到f,取這兩種選擇裏最優選擇即可
這樣從後往前計算,我們可以得到起點s到終點g的最短路V∗(s)
1.2 Q函數
有時我們除了要知道最短路,還要知道最短路這條路徑的走向(即怎麼走到終點),故我們還需要一個變量記錄當前頂點的選擇,我們定義Q∗(s,a)爲從s頂點選擇a路徑到終點g的最短路,拿圖例來說,頂點s出發有兩條路徑可選,一條權值爲1到達b,記作a1,一條權值爲2到達c,記作a2(在強化學習中,我們可以將頂點定義爲狀態,選擇路徑定義爲動作)
如果s選擇a1路徑,那麼Q∗(s,a1)由這條路權值和b到終點的最短路決定
Q∗(s,a1)=1+V∗(b)
同樣對於a2路徑,有
Q∗(s,a2)=2+V∗(c)
對於s點到終點的最短路,由這兩種選擇的最小值決定
V∗(s)=min{Q∗(s,a1),Q∗(s,a2)}
我們可以將V完全由Q函數代替,以Q∗(s,a2)爲例
Q∗(s,a2)=2+min{Q∗(c,a4),Q∗(c,a2)}
現在我們不僅求得了最優值,還記錄了每次的選擇。
1.3 通過隨機性引入期望
在之前的圖中兩點之間的到達關係是確定的,現在的圖中兩點之間具有概率關係,如c點選擇a4路徑有0.7的概率到達d,有0.3的概率到達e。
從原點到終點,即使策略確定(在每個點選擇哪條路是確定的),最終得到的路徑值是一個隨機變量,因此我們定義最短路爲期望最短路。
以c爲例,如果選擇a4路徑,期望最短路爲
Q∗(c,a4)=4+0.7∗min{Q∗(d,a3),Q∗(d,a1)}+0.3∗Q∗(e,a1)
抽象化這個式子,頂點由s表示,決策由a表示,權值由頂點和決策決定,即r(s,a),p(s′∣s,a)表示由當前頂點選擇決策到下一個頂點的概率
Q∗(s,a)=r(s,a)+s′∑[p(s′∣s,a)∗mina′Q′(s′,a′)]=r(s,a)+Es′∼p(s′∣s,a)[mina′Q′(s′,a′)]
在強化學習中,我們一般要最大化目標值,即將上式的min改爲max,便得到Q函數的最優貝爾曼方程
2. 關於期望
對於強化學習的目標,常常定義爲
J(θ)=maxθEτ∼pθ(τ)R(τ)
τ表示一條軌跡,可以類比於上面從原點到終點的一條路徑,R(τ)表示這條軌跡總的回報值,是一個隨機變量,滿足pθ(τ)這個概率分佈,最終目標爲最大化期望回報值。
R(τ)是軌跡下每一步的決策回報加和,即R(τ)=∑t=0T−1r(st,at),即T個隨機變量的和,每一個隨機變量r(st,at)由狀態動作對(st,at)決定,服從pθ(st,at)概率分佈
對於第一個隨機變量r(s0,a0)
pθ(s0,a0)=p(s0)πθ(a0∣s0)p(s1∣s0,a0)
第二個隨機變量r(s1,a1)
pθ(s1,a1)=p(s0)πθ(a0∣s0)p(s1∣s0,a0)π(a1∣s1)p(s2∣s1,a1)
以此類推。
這T個隨機變量的聯合概率分佈可以認爲是最後一個隨機變量的概率分佈pθ(sT−1,aT−1)
pθ(sT−1,aT−1)=p(s0)t=0∏T−1πθ(at∣st)p(st+1∣st,at)
也可以認爲是該軌跡服從的概率分佈
目標函數可以寫爲
J(θ)=maxθEτ∼pθ(τ)t=0∑n−1r(st,at)
有時爲了凸顯期望下標顯示聯合概率分佈含義,也寫作
J(θ)=maxθEs0,a0,s1⋯sTt=0∑n−1r(st,at)
我們還知道,期望的和等於和的期望,所以我們可以把求和提到期望外面
J(θ)=maxθt=0∑n−1E(st,at)∼pθ(st,at)r(st,at)
期望的下標也相應換成各自隨機變量滿足的概率分佈
對於無限長度軌跡的情況,我們考慮以下的目標函數
J(θ)=maxθE(s,a)∼pθ(s,a)r(s,a)
其中pθ(s,a)表示穩態分佈
參考資料
CS 294 Deep Reinforcement Learning
CS 598 Statistical Reinforcement Learning