Finite-time Analysis of the Multiarmed Bandit Problem


發表時間:2002(Machine Learning, 47, 235–256, 2002)
文章要點:這篇文章主要是分析了針對Multiarmed Bandit Problem的幾個經典算法的收斂性。我們知道這類問題主要就是在解決exploration versus exploitation dilemma,他的regret至少是以動作次數的對數增長的,但是這個結論只是漸進性的,不夠具體。作者就分析了四個具體算法的finite-time下的性質。
分析的第一個算法是經典的UCB1,這個算法動作的選擇策略如上圖,以\(\bar{x}_j+\sqrt{\frac{2\ln n}{n_j}}\)選擇動作,其中\(\bar{x}_j\)是當前得到的arm \(j\)的平均reward,\(\sqrt{\frac{2\ln n}{n_j}}\)是一個和訪問次數有關的項,用來控制exploration。得到的結論就是

這裏

這個定理告訴了我們,對於做了n次動作後,當前的regret被bound在什麼範圍,這個結論可比漸進性強多了。
第二個算法是UCB2

之前UCB1裏面有個\(8/\Delta^2_i\),UCB2可以把這個數縮小到任意接近\(1/2\Delta^2_i\)。UCB2算法的流程是這樣的,他控制exploration的項變成了

並且選定一個動作後,要執行\(\tau (r_j+1)-\tau (r_j)\)次,而不是一次。這裏有個常數\(\alpha\)需要設置。得出的結論是


也是直接就告訴了我們regret的bound在哪。
第三個算法是\(\epsilon_n\)-greedy。我們知道如果是\(\epsilon\)-greedy的話,因爲\(\epsilon\)永遠不衰減,這個regret的增長速度是線性的,而如果我們用如下的方式來衰減的話,就可以控制在對數速度。

這裏K就是K個arm,d和c是參數。得出的結論是


最後一個算法是UCB1-NORMAL,就是對arm的reward 做了一個正態分佈的假設,選擇動作的規則有部分變化

得出的結論是

總結:一篇很經典的對Multiarmed Bandit Problem做理論分析的文章,最開始發在ICML 1998,後面發在期刊Machine Learning,感覺可以從這篇開始入門一點理論分析了。證明在原論文裏面寫的很好,這裏就不貼了。
疑問:其實不太懂這個bound到底算不算緊,但是這個結論肯定是非常牛皮的了。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章