【強化學習入門】梯度賭博機算法中，偏好函數更新：梯度上升公式是精確梯度上升的隨機近似的證明

本文證明強化學習入門問題：K搖臂賭博機的梯度賭博機算法中，偏好函數更新公式： $H_{t+1}(A_t) = H_t(A_t) + \alpha (R_t - \overline{R_t})(1-\pi_t(A_t))$ 的合理性。書上可能有些不太好理解，我用較爲淺顯的語言將每步證明的“why & how”描述出來。

引用自：強化學習（第2版）; [加拿大] Richard S. Sutton, [美國] Andrew G. Barto; 俞凱譯

書中提到的搖臂賭博機的所有算法，我已經使用python 3實現，在線瀏覽ipynb：https://nbviewer.jupyter.org/github/PiperLiu/Reinforcement-Learning-practice-zh/blob/master/practice/01-Stochastic-Multi-Armed-Bandit.ipynb。並上傳github，倉庫：https://github.com/PiperLiu/Reinforcement-Learning-practice-zh。

前言

在強化學習入門問題：K搖臂賭博機的梯度賭博機算法中，提出了偏好函數。偏好函數本身的值並不重要，重要的是一個動作相比於另一個動作的偏好，因此，選擇動作的概率分佈使用softmax分佈：

$Pr_{A_t = a} = \frac{e^{H_t(a)}}{\sum_{b=1}^{k} e^{H_t(b)}} = \pi_t(a)$

$\pi_t(a)$ 表示動作a在t時刻被選擇的概率，所有偏好函數的初始值都相同（可爲0）。

則，偏好函數更新遵守如下規則：

$H_{t+1}(A_t) = H_t(A_t) + \alpha (R_t - \overline{R_t})(1-\pi_t(A_t))$	對於被選擇的動作 $A_t$	(1)
$H_{t+1}(a) = H_t(a) - \alpha (R_t - \overline(R_t) \pi_t(a))$	對於所有 $a \not= A_t$	(2)

其中，a是一個大於0的數，表示步長。 $\overline{R_t}$ 是時刻t內所有收益的平均值，稱爲基準項。

個人思考：爲什麼更新偏好函數時要考慮概率呢？ 答：對於(1)式，若本身概率較大，則 $H_{t+1}$ 不會加太多，若本身概率 $\pi_t=1$ ，則 $H_{t+1}$ 不用更新。

上述思考有一定道理，但是這個更新公式的合理性可以在數學上證明。下面開始證明。

證明

在精確梯度上升算法中，有：

$H_{t+1}(a)=H_t(a) + \alpha \frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)}$

這裏，用總體的期望收益定義爲性能的衡量指標：

$\mathbb{E}[R_t] = \sum_x \pi_t (x) q_* (x)$

真實的 $q_* (x)$ （每個動作的真實收益）是未知的，因此無法實現精確的梯度上升。但是可以使用隨機梯度上升求近似。

即，開始推導 $\frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)}$ 的近似：

$\frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)} = \frac{\partial}{\partial H_t(a)}\left[ \sum_x \pi_t (x) q_* (x) \right]$

因爲 $q_* (x)$ 客觀存在，與 $H_t (a)$ 值無關，所以：

$\frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)} = \sum_x q_* (x) \frac{\partial \pi_t (x)}{\partial H_t(a)}$

因爲 $\sum_x \frac{\partial \pi_t (x)}{\partial H_t(a)}=0$ （其證明在後文：動作導數總和爲0的證明），因此可以加入“基準項” $B_t$ ：

$\frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)} = \sum_x (q_* (x) - B_t ) \frac{\partial \pi_t (x)}{\partial H_t(a)}$

然後，乘以 $\pi_t(x) / \pi_t(x)$ ，有：

$\frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)} = \sum_x \pi_t(x) (q_* (x) - B_t ) \frac{\partial \pi_t (x)}{\partial H_t(a)} / \pi_t(x)$

可以看出，上式實際上是對 $\pi_t(x)$ 分佈中的 $(q_* (x) - B_t ) \frac{\partial \pi_t (x)}{\partial H_t(a)} / \pi_t(x)$ 進行期望求值，即：

$\frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)} = \mathbb{E} \left[ (q_* (x) - B_t ) \frac{\partial \pi_t (x)}{\partial H_t(a)} / \pi_t(x) \right]$

其中，變量爲動作 $x$ ，這裏記爲選擇的動作 $A_t$ ；並且，將 $B_t$ 取值爲 $\overline{R_t}$ ；又有，選擇 $A_t$ 動作的回報的期望爲 $\mathbb{E}[R_t | A_t]$ ，即 $q_* (x)=\mathbb{E}[R_t | A_t]$ 。因此，有：

$\frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)} = \mathbb{E} \left[ (R_t - \overline{R_t} ) \frac{\partial \pi_t ( A_t)}{\partial H_t(a)} / \pi_t( A_t) \right]$

又有， $\frac{\partial \pi_t (x)}{\partial H_t(a)}=\pi_t(x) (\mathbb{I}_{a=A_t} - \pi_t(a))$ ， $\mathbb{I}_{a=A_t}$ 表示，如果 $a=x$ 就取1，否則取0。其證明在後文：偏好函數導數的推導證明。

則帶入 $\frac{\partial \pi_t (x)}{\partial H_t(a)}=\pi_t(x) (\mathbb{I}_{a=A_t} - \pi_t(a))$ ，有：

$\frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)} = \mathbb{E} \left[ (R_t - \overline{R_t} ) (\mathbb{I}_{a=A_t} - \pi_t(a)) \right]$

將上式帶入 $H_{t+1}(a)=H_t(a) + \alpha \frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)}$ ，即有

$H_{t+1}(a)=H_t(a) + \alpha (R_t - \overline{R_t} ) (\mathbb{I}_{a=A_t} - \pi_t(a))$

即此式子收斂於精確梯度上升。

Q.E.D

動作導數總和爲0的證明

證明： $\sum_x \frac{\partial \pi_t (x)}{\partial H_t(a)}=0$ ：

因爲 $\sum_x \pi_t (x)=1$ ，即概率和爲1，所以對每一項的 $H_t(a)$ 求導，等式右邊爲0：

$\sum_x \frac{\partial \pi_t (x)}{\partial H_t(a)}=0$

Q.E.D

偏好函數導數的推導證明

證明： $\frac{\partial \pi_t (x)}{\partial H_t(a)}=\pi_t(x) (\mathbb{I}_{a=A_t} - \pi_t(a))$ ， $\mathbb{I}_{a=A_t}$ 表示，如果 $a=x$ 就取1，否則取0。

其實，就是一道很簡單的 $(\frac{f(x)}{g(x)})^{'}$ 等應用。

簡化一下 $\frac{\partial \pi_t (x)}{\partial H_t(a)}$ ，將 $H_t(x)$ 替換爲 $x$ ，並在證明中使用下式即可：

$\pi_t (x) = \frac{e^{x}}{\sum_{i=1}^{k} e^i}$

證明下式即可：

$\frac{\partial \pi_t (x)}{\partial x} = \left\{ \begin{aligned} \pi_t(x)(1-\pi_t(a)) & & x=a \\ -\pi_t(x) \pi_t(a) & & x\not= a \\ \end{aligned} \right.$

高中數學內容，應用公式 $(\frac{f(x)}{g(x)})^{'} = \frac{f^{'}(x)g(x) - g^{'}(x)f(x)}{g(x)^{2}}$ 分類討論，可輕鬆證明。

PiperNest (同公衆號)

發佈了139 篇原創文章 · 獲贊 48 · 訪問量 2萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【強化學習入門】梯度賭博機算法中，偏好函數更新：梯度上升公式是精確梯度上升的隨機近似的證明

前言

證明

動作導數總和爲0的證明

偏好函數導數的推導證明

工作中用到的腳本合集

24-5-18 X

【解決方案】pytorch中loss變成了nan | 神經網絡輸出nan | MSE 梯度爆炸/梯度消失

express : 無法將“express”項識別爲 cmdlet、函數、腳本文件或可運行程序的名稱。express: command not found

《強化學習》中的第11章：基於函數逼近的離軌策略方法

“我有必要寫技術博客嗎？” 寫技術博客一年，談談其得失優劣

【開發隨筆】以強化學習環境 gym 庫爲例：爲什麼日常中我應該試圖標準化接口？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結