強化學習基礎——形象化解釋值函數含義以及期望的意義

1.值函數定義

1.1 V函數

我們先看一下經典的最短路問題,假設我們要求出起點s到終點g的最短路

我們定義V(s)V^\ast(s)ss到終點gg的最短路,V(f)V^\ast(f)ff到終點gg的最短路,以此類推,爲了求出這個最短路,我們從終點開始算起:
V(g)=0V(f)=1+V(g)=1V(d)=min{3+V(g),1+V(f)} \begin{aligned} V^\ast(g)&=0 \\ V^\ast(f)&=1+V^\ast(g)=1\\ V^\ast(d)&=min\{3+V^\ast(g),1+V^\ast(f)\} \end{aligned}

對終點gg來說,自己到自己的最短路爲0。

對頂點ff來說,只有它自己和終點gg有路徑,故頂點ffgg的最短路由這條路徑的權重和V(g)V^\ast(g)相加

對頂點dd來說,有兩個選擇,可以選擇權值爲3的路徑到gg,也可以選擇權值爲1的路徑到ff,取這兩種選擇裏最優選擇即可

這樣從後往前計算,我們可以得到起點ss到終點gg的最短路V(s)V^\ast(s)

1.2 Q函數

有時我們除了要知道最短路,還要知道最短路這條路徑的走向(即怎麼走到終點),故我們還需要一個變量記錄當前頂點的選擇,我們定義Q(s,a)Q^\ast(s,a)爲從ss頂點選擇aa路徑到終點gg的最短路,拿圖例來說,頂點ss出發有兩條路徑可選,一條權值爲1到達bb,記作a1a_1,一條權值爲2到達cc,記作a2a_2(在強化學習中,我們可以將頂點定義爲狀態,選擇路徑定義爲動作)

如果ss選擇a1a_1路徑,那麼Q(s,a1)Q^\ast(s,a_1)由這條路權值和bb到終點的最短路決定
Q(s,a1)=1+V(b) Q^\ast(s,a_1)=1+V^\ast(b)
同樣對於a2a_2路徑,有
Q(s,a2)=2+V(c) Q^\ast(s,a_2)=2+V^\ast(c)
對於ss點到終點的最短路,由這兩種選擇的最小值決定
V(s)=min{Q(s,a1),Q(s,a2)} V^\ast(s)=min\{Q^\ast(s,a_1),Q^\ast(s,a_2)\}
我們可以將VV完全由QQ函數代替,以Q(s,a2)Q^\ast(s,a_2)爲例
Q(s,a2)=2+min{Q(c,a4),Q(c,a2)} Q^\ast(s,a_2)=2+min\{Q^\ast(c,a_4), Q^\ast(c,a_2)\}
現在我們不僅求得了最優值,還記錄了每次的選擇。

1.3 通過隨機性引入期望

在之前的圖中兩點之間的到達關係是確定的,現在的圖中兩點之間具有概率關係,如cc點選擇a4a_4路徑有0.7的概率到達dd,有0.3的概率到達ee

從原點到終點,即使策略確定(在每個點選擇哪條路是確定的),最終得到的路徑值是一個隨機變量,因此我們定義最短路爲期望最短路。

cc爲例,如果選擇a4a_4路徑,期望最短路爲
Q(c,a4)=4+0.7min{Q(d,a3),Q(d,a1)}+0.3Q(e,a1) Q^\ast(c,a_4)=4+0.7*min\{Q^\ast(d,a_3),Q^\ast(d,a_1)\}+0.3*Q^\ast(e,a_1)
抽象化這個式子,頂點由ss表示,決策由aa表示,權值由頂點和決策決定,即r(s,a)r(s,a)p(ss,a)p(s^\prime|s,a)表示由當前頂點選擇決策到下一個頂點的概率
Q(s,a)=r(s,a)+s[p(ss,a)minaQ(s,a)]=r(s,a)+Esp(ss,a)[minaQ(s,a)] \begin{aligned} Q^\ast(s,a)&=r(s,a)+\sum_{s^\prime}[p(s^\prime|s,a)*min_{a^\prime}Q^\prime(s^\prime,a^\prime)]\\ &=r(s,a)+E_{s^\prime\sim p(s^\prime|s,a)}[min_{a^\prime}Q^\prime(s^\prime,a^\prime)] \end{aligned}
在強化學習中,我們一般要最大化目標值,即將上式的minmin改爲maxmax,便得到QQ函數的最優貝爾曼方程

2. 關於期望

對於強化學習的目標,常常定義爲
J(θ)=maxθEτpθ(τ)R(τ) J(\theta)=max_\theta E_{\tau \sim p_\theta(\tau)}R(\tau)
τ\tau表示一條軌跡,可以類比於上面從原點到終點的一條路徑,R(τ)R(\tau)表示這條軌跡總的回報值,是一個隨機變量,滿足pθ(τ)p_\theta(\tau)這個概率分佈,最終目標爲最大化期望回報值。

R(τ)R(\tau)是軌跡下每一步的決策回報加和,即R(τ)=t=0T1r(st,at)R(\tau)=\sum_{t=0}^{T-1}r(s_t,a_t),即TT個隨機變量的和,每一個隨機變量r(st,at)r(s_t,a_t)由狀態動作對(st,at)(s_t,a_t)決定,服從pθ(st,at)p_\theta(s_t,a_t)概率分佈

對於第一個隨機變量r(s0,a0)r(s_0,a_0)
pθ(s0,a0)=p(s0)πθ(a0s0)p(s1s0,a0) p_\theta(s_0,a_0)=p(s_0)\pi_\theta(a_0|s_0)p(s_1|s_0,a_0)
第二個隨機變量r(s1,a1)r(s_1,a_1)
pθ(s1,a1)=p(s0)πθ(a0s0)p(s1s0,a0)π(a1s1)p(s2s1,a1) p_\theta(s_1,a_1)=p(s_0)\pi_\theta(a_0|s_0)p(s_1|s_0,a_0)\pi(a_1|s_1)p(s_2|s_1,a_1)
以此類推。

TT個隨機變量的聯合概率分佈可以認爲是最後一個隨機變量的概率分佈pθ(sT1,aT1)p_\theta(s_{T-1},a_{T-1})
pθ(sT1,aT1)=p(s0)t=0T1πθ(atst)p(st+1st,at) p_\theta(s_{T-1},a_{T-1})=p(s_0)\prod_{t=0}^{T-1}\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)
也可以認爲是該軌跡服從的概率分佈

目標函數可以寫爲
J(θ)=maxθEτpθ(τ)t=0n1r(st,at) J(\theta)=max_\theta E_{\tau \sim p_\theta(\tau)}\sum_{t=0}^{n-1}r(s_t,a_t)
有時爲了凸顯期望下標顯示聯合概率分佈含義,也寫作
J(θ)=maxθEs0,a0,s1sTt=0n1r(st,at) J(\theta)=max_\theta E_{s_0,a_0,s_1\cdots s_{T}}\sum_{t=0}^{n-1}r(s_t,a_t)
我們還知道,期望的和等於和的期望,所以我們可以把求和提到期望外面
J(θ)=maxθt=0n1E(st,at)pθ(st,at)r(st,at) J(\theta)=max_\theta \sum_{t=0}^{n-1}E_{(s_t,a_t)\sim p_\theta(s_t,a_t)}r(s_t,a_t)
期望的下標也相應換成各自隨機變量滿足的概率分佈

對於無限長度軌跡的情況,我們考慮以下的目標函數
J(θ)=maxθE(s,a)pθ(s,a)r(s,a) J(\theta)=max_\theta E_{(s,a)\sim p_\theta(s,a)}r(s,a)
其中pθ(s,a)p_\theta(s,a)表示穩態分佈

參考資料

CS 294 Deep Reinforcement Learning

CS 598 Statistical Reinforcement Learning

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章