強化學習基礎——形象化解釋值函數含義以及期望的意義

原創

启人zhr

2019-09-19 22:16

1.值函數定義

1.1 V函數

我們先看一下經典的最短路問題，假設我們要求出起點s到終點g的最短路

我們定義 $V^\ast(s)$ 爲 $s$ 到終點 $g$ 的最短路， $V^\ast(f)$ 爲 $f$ 到終點 $g$ 的最短路，以此類推，爲了求出這個最短路，我們從終點開始算起：
$\begin{aligned} V^\ast(g)&=0 \\ V^\ast(f)&=1+V^\ast(g)=1\\ V^\ast(d)&=min\{3+V^\ast(g),1+V^\ast(f)\} \end{aligned}$

對終點 $g$ 來說，自己到自己的最短路爲0。

對頂點 $f$ 來說，只有它自己和終點 $g$ 有路徑，故頂點 $f$ 到 $g$ 的最短路由這條路徑的權重和 $V^\ast(g)$ 相加

對頂點 $d$ 來說，有兩個選擇，可以選擇權值爲3的路徑到 $g$ ，也可以選擇權值爲1的路徑到 $f$ ，取這兩種選擇裏最優選擇即可

這樣從後往前計算，我們可以得到起點 $s$ 到終點 $g$ 的最短路 $V^\ast(s)$

1.2 Q函數

有時我們除了要知道最短路，還要知道最短路這條路徑的走向（即怎麼走到終點），故我們還需要一個變量記錄當前頂點的選擇，我們定義 $Q^\ast(s,a)$ 爲從 $s$ 頂點選擇 $a$ 路徑到終點 $g$ 的最短路，拿圖例來說，頂點 $s$ 出發有兩條路徑可選，一條權值爲1到達 $b$ ，記作 $a_1$ ，一條權值爲2到達 $c$ ，記作 $a_2$ （在強化學習中，我們可以將頂點定義爲狀態，選擇路徑定義爲動作）

如果 $s$ 選擇 $a_1$ 路徑，那麼 $Q^\ast(s,a_1)$ 由這條路權值和 $b$ 到終點的最短路決定
$Q^\ast(s,a_1)=1+V^\ast(b)$
同樣對於 $a_2$ 路徑，有
$Q^\ast(s,a_2)=2+V^\ast(c)$
對於 $s$ 點到終點的最短路，由這兩種選擇的最小值決定
$V^\ast(s)=min\{Q^\ast(s,a_1),Q^\ast(s,a_2)\}$
我們可以將 $V$ 完全由 $Q$ 函數代替，以 $Q^\ast(s,a_2)$ 爲例
$Q^\ast(s,a_2)=2+min\{Q^\ast(c,a_4), Q^\ast(c,a_2)\}$
現在我們不僅求得了最優值，還記錄了每次的選擇。

1.3 通過隨機性引入期望

在之前的圖中兩點之間的到達關係是確定的，現在的圖中兩點之間具有概率關係，如 $c$ 點選擇 $a_4$ 路徑有0.7的概率到達 $d$ ，有0.3的概率到達 $e$ 。

從原點到終點，即使策略確定（在每個點選擇哪條路是確定的），最終得到的路徑值是一個隨機變量，因此我們定義最短路爲期望最短路。

以 $c$ 爲例，如果選擇 $a_4$ 路徑，期望最短路爲
$Q^\ast(c,a_4)=4+0.7*min\{Q^\ast(d,a_3),Q^\ast(d,a_1)\}+0.3*Q^\ast(e,a_1)$
抽象化這個式子，頂點由 $s$ 表示，決策由 $a$ 表示，權值由頂點和決策決定，即 $r(s,a)$ ， $p(s^\prime|s,a)$ 表示由當前頂點選擇決策到下一個頂點的概率
$\begin{aligned} Q^\ast(s,a)&=r(s,a)+\sum_{s^\prime}[p(s^\prime|s,a)*min_{a^\prime}Q^\prime(s^\prime,a^\prime)]\\ &=r(s,a)+E_{s^\prime\sim p(s^\prime|s,a)}[min_{a^\prime}Q^\prime(s^\prime,a^\prime)] \end{aligned}$
在強化學習中，我們一般要最大化目標值，即將上式的 $min$ 改爲 $max$ ，便得到 $Q$ 函數的最優貝爾曼方程

2. 關於期望

對於強化學習的目標，常常定義爲
$J(\theta)=max_\theta E_{\tau \sim p_\theta(\tau)}R(\tau)$
$\tau$ 表示一條軌跡，可以類比於上面從原點到終點的一條路徑， $R(\tau)$ 表示這條軌跡總的回報值，是一個隨機變量，滿足 $p_\theta(\tau)$ 這個概率分佈，最終目標爲最大化期望回報值。

$R(\tau)$ 是軌跡下每一步的決策回報加和，即 $R(\tau)=\sum_{t=0}^{T-1}r(s_t,a_t)$ ，即 $T$ 個隨機變量的和，每一個隨機變量 $r(s_t,a_t)$ 由狀態動作對 $(s_t,a_t)$ 決定，服從 $p_\theta(s_t,a_t)$ 概率分佈

對於第一個隨機變量 $r(s_0,a_0)$
$p_\theta(s_0,a_0)=p(s_0)\pi_\theta(a_0|s_0)p(s_1|s_0,a_0)$
第二個隨機變量 $r(s_1,a_1)$
$p_\theta(s_1,a_1)=p(s_0)\pi_\theta(a_0|s_0)p(s_1|s_0,a_0)\pi(a_1|s_1)p(s_2|s_1,a_1)$
以此類推。

這 $T$ 個隨機變量的聯合概率分佈可以認爲是最後一個隨機變量的概率分佈 $p_\theta(s_{T-1},a_{T-1})$
$p_\theta(s_{T-1},a_{T-1})=p(s_0)\prod_{t=0}^{T-1}\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)$
也可以認爲是該軌跡服從的概率分佈

目標函數可以寫爲
$J(\theta)=max_\theta E_{\tau \sim p_\theta(\tau)}\sum_{t=0}^{n-1}r(s_t,a_t)$
有時爲了凸顯期望下標顯示聯合概率分佈含義，也寫作
$J(\theta)=max_\theta E_{s_0,a_0,s_1\cdots s_{T}}\sum_{t=0}^{n-1}r(s_t,a_t)$
我們還知道，期望的和等於和的期望，所以我們可以把求和提到期望外面
$J(\theta)=max_\theta \sum_{t=0}^{n-1}E_{(s_t,a_t)\sim p_\theta(s_t,a_t)}r(s_t,a_t)$
期望的下標也相應換成各自隨機變量滿足的概率分佈

對於無限長度軌跡的情況，我們考慮以下的目標函數
$J(\theta)=max_\theta E_{(s,a)\sim p_\theta(s,a)}r(s,a)$
其中 $p_\theta(s,a)$ 表示穩態分佈

參考資料

CS 294 Deep Reinforcement Learning

CS 598 Statistical Reinforcement Learning

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

強化學習基礎——形象化解釋值函數含義以及期望的意義

1.值函數定義

1.1 V函數

1.2 Q函數

1.3 通過隨機性引入期望

2. 關於期望

Codeforces Round #386 (Div.2)部分題解

銀行家算法實現——找出所有安全序列

進程同步-生產者和消費者（PV操作實現——java多線程模擬）

強化學習與自動駕駛——Carla環境配置與benchmark解讀

統計學習方法第一章統計學習方法概論讀書筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結