《強化學習Sutton》讀書筆記（一）——多臂賭博機（Multi-armed Bandits）

原創

2020-07-03 08:22

此爲《強化學習》第二章。

多臂賭博機問題描述

問題描述略。理想狀態下，如果我們可以知道做出行爲 $a$ 時得到的期望價值，那問題就結了，按期望選擇最大的就好了。它的表達式爲：

q_{*} (a) ≐ E [R_{t} | A_{t} = a]

其中，選擇行爲 $a$ 的理論期望價值 $q_{*} (a)$ 定義爲在第 $t$ 步選擇行爲 (Action) $a$ 得到的獎勵 (Reward) $R_{t}$ 的期望。

但顯然，我們是不可能精確得到 $q_{*} (a)$ 的，所以我們用 $Q_{t} (a)$ 作爲第 $t$ 步選擇行爲 $a$ 對價值進行估計，希望 $Q_{t} (a)$ 可以逼近 $q_{*} (a)$ 。

採樣方法

第一種方法是基於採樣得到採樣平均 (Sample Average) 。採樣平均就是統計每次選擇行爲 $a$ 得到獎勵的平均值，即

Q_{t} (a) ≐ \frac{\sum_{i = 1}^{t - 1} R_{i} I_{A_{i} = a}}{\sum_{i = 1}^{t - 1} I_{A_{i} = a}}

其中 $I$ 表示指示函數。

如果採用貪心法，則採樣方法下的策略爲

A_{t} = {\arg max}_{a} Q_{t} (a)

完全的貪心只能保證選擇了當前最優解，並不能保證其他未被完全探索到的行爲不會產生更大的獎勵。考慮到對開發 (Exploit) 和探索 (Explore) 之間的平衡，也常使用 $ϵ$ -貪心法。

10臂賭博機的例子

假如有一個獎勵分佈如下圖所示的多臂賭博機，

使用不同的 $ϵ$ 的貪心算法得到的結果不同，它也反應了探索的重要性。

增量式實現

在採樣方法一節中， $Q_{t} (a)$ 表示爲一組獎勵的求平均，非常直觀，但要求存下每一步的獎勵，對空間開銷較大。對 $Q_{t} (a)$ 稍作移項，就可以得到它的迭代式更新方法。（以下表達式省略 $a$ ，均表示 $a$ 下的價值估計和獎勵）

Q_{n + 1} = \frac{1}{n} \sum_{i = 1}^{n} R_{i} = \frac{1}{n} (R_{n} + (n - 1) Q_{n}) = Q_{n} + \frac{1}{n} (R_{n} - Q_{n})

變化獎勵下的多臂賭博機

在上述的方法下，我們都假定了多臂賭博機的獎勵符合一個固定的分佈，與時間無關。如果與時間相關呢？我們可能更希望較近的採樣比以前的採樣具有更高的權重。我們對上一節的 $Q_{n + 1}$ 進行微調

Q_{n + 1} = Q_{n} + α (R_{n} - Q_{n})

與之前的 $1 / n$ 不同，此時 $α$ 爲一個 $[0, 1)$ 的常數。不難得到，

Q_{n + 1} = (1 - α)^{n} Q_{1} + \sum_{i = 1}^{n} α (1 - α)^{n - i} R_{i}

可以看出， $i$ 越小， $R_{i}$ 的權重越低。 $α$ 除了可以設置爲常數外，也可以是和 $n$ 相關的函數，比如上一節中的 $1 / n$ 。不過這樣就需要自己判斷不同時間獎勵的權重關係了。

初值設定

增量式地更新價值估計，有一個和採樣方法不同的地方，即 $Q_{1} (a)$ 的出現，它使我們的估計是有偏的（雖然偏差會隨着時間增加而降低，趨向於0）。但這種偏差有時可以被我們利用，比如可以加入我們的先驗知識。再比如，過於樂觀（過大）的 $Q_{1} (a)$ 能夠激勵探索，因爲每次行爲總是在降低行爲 $a$ 的期望，從而鼓勵探索其他行爲。下圖在上述的10臂賭博機例子上實驗了樂觀估計和保守估計的不同。

上限置信邊界行爲選擇

上限置信邊界 (Upper-Confidence-Bound) 是個奇怪的名字。不過它的思路是清晰的。在 $ϵ$ -貪心下， $ϵ$ 是一個經驗性的常數，而我們常常會希望在學習開始初期多進行探索，而後期比較明確各行爲的獎勵時則多進行開發，一個簡單的常數 $ϵ$ 是不夠的。

UCB的策略是這樣的

A_{t} = {\arg max}_{a} [Q_{t} (a) + c \sqrt{\frac{\ln t}{N_{t} (a)}}]

當總採樣次數 $t$ 增大，而行爲 $a$ 被採樣的次數 $N_{t} (a)$ 不變，式子第二項就會逐漸增大，使探索總是能夠發生。 $c$ 可以用來調節開發和探索的比例。

下圖表現了UCB和 $ϵ$ -貪心的對比。

梯度賭博機算法

在之前的例子中，我們總是採取了貪心的算法（包括 $ϵ$ -貪心）作爲策略。貪心算法突出了當前最優的一個行爲，而將其他行爲幾乎視爲等價。本節中，我們按照概率來選擇行爲。我們把策略記爲 $π_{t} (a)$ ，表示在第 $t$ 步選擇行爲 $a$ 的概率。概率具體的值是它們偏好的softmax，即

π_{t} (a) ≐ Pr {A_{t} = a} ≐ \frac{e^{H_{t} (a)}}{\sum_{b = 1}^{k} e^{H_{t} (b)}}

其中， $k$ 表示賭博機的數量， $H_{t} (a)$ 表示對行爲 $a$ 的偏好 (Perference) ， $H_{t} (a)$ 表達式爲

(a = A_{t}) : H_{t + 1} (a) = H_{t} (a) + α (R_{t} - {\bar{R}}_{t}) (1 - π_{t} (a)) (a \neq A_{t}) : H_{t + 1} (a) = H_{t} (a) - α (R_{t} - {\bar{R}}_{t}) π_{t} (a)

其中， ${\bar{R}}_{t}$ 表示 $t$ 步時的平均獎勵，它將作爲衡量獎勵大小的參考 (Baseline) 。顯然，如果 $R_{t} > {\bar{R}}_{t}$ ，那麼 $H_{t + 1} (A_{t})$ 將增大，而其他行爲的偏好將減小。而所有偏好的和將保持不變。下圖表現了baseline有無和探索/開發平衡性的不同效果。

上述的公式其實有點無厘頭，尤其是和標題中的“梯度”沒有任何關係。可以證明（過程詳見書本），

H_{t + 1} (a) = H_{t} (a) + α \frac{\partial E [R_{t}]}{\partial H_{t} (a)}

聯合搜索（上下文賭博機）

上述的賭博機都是一次性的賭博機——做出一個行爲後立刻得到回報，且下一次仍然面對同樣的賭博機。但實際問題很可能需要一組策略而非單個策略。這將在以後的章節中討論。

參考文獻

《Reinforcement Learning: An Introduction (second edition)》Richard S. Sutton and Andrew G. Barto

上一篇：無
下一篇：《強化學習Sutton》讀書筆記（二）——有限馬爾科夫決策過程（Finite Markov Decision Processes）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《強化學習Sutton》讀書筆記（一）——多臂賭博機（Multi-armed Bandits）

多臂賭博機問題描述

採樣方法

10臂賭博機的例子

增量式實現

變化獎勵下的多臂賭博機

初值設定

上限置信邊界行爲選擇

梯度賭博機算法

聯合搜索（上下文賭博機）

參考文獻

EXCEL中下拉菜單中添加新選項或者刪除選項

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

Git使用經驗總結5-修改提交信息

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Git使用經驗總結4-撤回上一次本地提交

Java中止線程的方式

壓榨數據庫的真實處理速度

國內SaaS遇冷？未來企業服務賽道是否還有機會？

Blowing Bubbles論文閱讀

《強化學習Sutton》讀書筆記（四）——蒙特卡洛方法（Monte Carlo Methods）

《強化學習Sutton》讀書筆記（三）——動態規劃（Dynamic Programming）

SPPR閱讀筆記：單張圖片的3D平面重建

正義之心讀書筆記：第9章我們自私，我們也無私——支持羣體選擇的證據

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結