Finite-time Analysis of the Multiarmed Bandit Problem

原創

2023-03-20 13:32

發表時間：2002（Machine Learning, 47, 235–256, 2002）
文章要點：這篇文章主要是分析了針對Multiarmed Bandit Problem的幾個經典算法的收斂性。我們知道這類問題主要就是在解決exploration versus exploitation dilemma，他的regret至少是以動作次數的對數增長的，但是這個結論只是漸進性的，不夠具體。作者就分析了四個具體算法的finite-time下的性質。
分析的第一個算法是經典的UCB1，這個算法動作的選擇策略如上圖，以\(\bar{x}_j+\sqrt{\frac{2\ln n}{n_j}}\)選擇動作，其中\(\bar{x}_j\)是當前得到的arm \(j\)的平均reward，\(\sqrt{\frac{2\ln n}{n_j}}\)是一個和訪問次數有關的項，用來控制exploration。得到的結論就是

這裏

這個定理告訴了我們，對於做了n次動作後，當前的regret被bound在什麼範圍，這個結論可比漸進性強多了。
第二個算法是UCB2

之前UCB1裏面有個\(8/\Delta^2_i\)，UCB2可以把這個數縮小到任意接近\(1/2\Delta^2_i\)。UCB2算法的流程是這樣的，他控制exploration的項變成了

並且選定一個動作後，要執行\(\tau (r_j+1)-\tau (r_j)\)次，而不是一次。這裏有個常數\(\alpha\)需要設置。得出的結論是

也是直接就告訴了我們regret的bound在哪。
第三個算法是\(\epsilon_n\)-greedy。我們知道如果是\(\epsilon\)-greedy的話，因爲\(\epsilon\)永遠不衰減，這個regret的增長速度是線性的，而如果我們用如下的方式來衰減的話，就可以控制在對數速度。

這裏K就是K個arm，d和c是參數。得出的結論是

最後一個算法是UCB1-NORMAL，就是對arm的reward 做了一個正態分佈的假設，選擇動作的規則有部分變化

得出的結論是

總結：一篇很經典的對Multiarmed Bandit Problem做理論分析的文章，最開始發在ICML 1998，後面發在期刊Machine Learning，感覺可以從這篇開始入門一點理論分析了。證明在原論文裏面寫的很好，這裏就不貼了。
疑問：其實不太懂這個bound到底算不算緊，但是這個結論肯定是非常牛皮的了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Finite-time Analysis of the Multiarmed Bandit Problem

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

State Distribution-aware Sampling for Deep Q-learning

Large Batch Experience Replay

Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結