如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說,注意頭像和簡書使用頭像一致。
我們繼續來討論多搖臂老虎機問題一些策略
Thompson sampling 算法
在 thompson sampling 算法中,假設每一個搖臂機給出收益都是服從一個概率分佈,我們通過試探來學習出搖臂老虎機的背後的概率。怎麼能估計怎麼能估計概率 p 的概率分佈呢? 答案是假設概率 p 的概率分佈符合 beta(wins, lose)分佈,有兩個參數: wins, lose。每個臂都維護一個 beta 分佈的參數。每次試驗後,選中一個臂,搖一下,有收益則該臂的 wins 增加 1,否則該臂的 lose 增加 1。每次選擇臂的方式是:用每個臂現有的 beta 分佈產生一個隨機數 b,選擇所有臂產生的隨機數中最大的那個臂去搖。
平穩與非平穩問題
平穩問題
- 是穩定的,不隨時間而變化
- 隨着觀測樣本的增加,平均估計方法最終收斂於
非平穩問題
- 是關於時間的函數
- 對 的估計需要更關注最近的觀測樣本
因爲不平穩
這樣做的好處就是讓更新更關注最近的效果,
更新步長的選擇
並不是所有的步長選擇 都保證收斂
- 收斂
- 不收斂
收斂條件
- 第一個條件保證步長足夠大,克服初值或隨機擾動的影響,收斂與初始值無關
- 第二個條件保證步長最終會越來越小,小到保證收斂,表示收斂會越來越小
行爲選擇策略
- 如何制定合適的行爲選擇策略
- 貪心策略: 選擇當前估值最好的行爲
- 貪心策略: 以一定的概率隨機選擇非貪心行爲(non-greedy actions),但是對於非貪心行爲不加區分
- 行爲選擇策略
- 平衡利用(Exploitation)和探索(Exploration),應對行爲估值的不確定性
- 關鍵: 確定每一個行爲被選擇的概率