2021 重啓強化學習(4) 多搖臂老虎機

原創

zidea

2021-04-03 10:02

如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說，注意頭像和簡書使用頭像一致。

我們繼續來討論多搖臂老虎機問題一些策略

Thompson sampling 算法

在 thompson sampling 算法中，假設每一個搖臂機給出收益都是服從一個概率分佈，我們通過試探來學習出搖臂老虎機的背後的概率。怎麼能估計怎麼能估計概率 p 的概率分佈呢？答案是假設概率 p 的概率分佈符合 beta(wins, lose)分佈，有兩個參數: wins, lose。每個臂都維護一個 beta 分佈的參數。每次試驗後，選中一個臂，搖一下，有收益則該臂的 wins 增加 1，否則該臂的 lose 增加 1。每次選擇臂的方式是：用每個臂現有的 beta 分佈產生一個隨機數 b，選擇所有臂產生的隨機數中最大的那個臂去搖。

平穩與非平穩問題

平穩問題

$Q^*(a)$ 是穩定的，不隨時間而變化
隨着觀測樣本的增加，平均估計方法最終收斂於 $q^*(a)$

非平穩問題

$Q^*(a)$ 是關於時間的函數
對 $Q^*(a)$ 的估計需要更關注最近的觀測樣本

因爲不平穩

$Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]$

$\begin{aligned} Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]\\ =\alpha R_n + (1-\alpha)Q_n\\ =\alpha R_n + (1-\alpha)[\alpha R_{n-1} + (1 - \alpha)Q_{n-1}]\\ =\alpha R_n + (1-\alpha)\alpha R_{n-1} + (1-\alpha)(1 - \alpha)Q_{n-1}\\ = \alpha R_n + (1-\alpha) \alpha R_{n-1} + (1- \alpha)^2 \alpha R_{n-2} + \cdots + (1-\alpha)^{n-1} \alpha R_1 + (1 - \alpha) Q_1\\ = (1-\alpha)^nQ_1 +\sum_{i=1}^n \alpha(1-\alpha)^{n-i} R_i \end{aligned}$

這樣做的好處就是讓更新更關注最近的效果，

更新步長的選擇

並不是所有的步長選擇 $\alpha_n(a)$ 都保證收斂

$\alpha_n(a) = \frac{1}{n}$ 收斂
$\alpha_n(a) = \alpha$ 不收斂

收斂條件

$\sum_{n=1}^{\infty} \alpha_n(\alpha) = \infty \, and \, \sum_{n=1}^{\infty} \alpha^2_n(\alpha) < \infty$

第一個條件保證步長足夠大，克服初值或隨機擾動的影響，收斂與初始值無關
第二個條件保證步長最終會越來越小，小到保證收斂，表示收斂會越來越小

行爲選擇策略

如何制定合適的行爲選擇策略
- 貪心策略: 選擇當前估值最好的行爲
- $\epsilon$ 貪心策略: 以一定的概率隨機選擇非貪心行爲(non-greedy actions)，但是對於非貪心行爲不加區分
行爲選擇策略
- 平衡利用(Exploitation)和探索(Exploration)，應對行爲估值的不確定性
- 關鍵: 確定每一個行爲被選擇的概率

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2021 重啓強化學習(4) 多搖臂老虎機

Thompson sampling 算法

平穩與非平穩問題

平穩問題

非平穩問題

更新步長的選擇

收斂條件

行爲選擇策略

瀏覽器端的機器學習 tensorflowjs(6) 訓練模型

瀏覽器端的機器學習 tensorflowjs(5) 數據處理

瀏覽器端的機器學習 tensorflowjs(3) 加載 2D 數據

瀏覽器端的機器學習 tensorflowjs(2) 擬合2D數據

通過遺傳算法來優化特徵工程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結