2021 重啓強化學習(4) 多搖臂老虎機

如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說,注意頭像和簡書使用頭像一致。

我們繼續來討論多搖臂老虎機問題一些策略

Thompson sampling 算法

在 thompson sampling 算法中,假設每一個搖臂機給出收益都是服從一個概率分佈,我們通過試探來學習出搖臂老虎機的背後的概率。怎麼能估計怎麼能估計概率 p 的概率分佈呢? 答案是假設概率 p 的概率分佈符合 beta(wins, lose)分佈,有兩個參數: wins, lose。每個臂都維護一個 beta 分佈的參數。每次試驗後,選中一個臂,搖一下,有收益則該臂的 wins 增加 1,否則該臂的 lose 增加 1。每次選擇臂的方式是:用每個臂現有的 beta 分佈產生一個隨機數 b,選擇所有臂產生的隨機數中最大的那個臂去搖。

平穩與非平穩問題

平穩問題
  • Q^*(a) 是穩定的,不隨時間而變化
  • 隨着觀測樣本的增加,平均估計方法最終收斂於 q^*(a)
非平穩問題
  • Q^*(a) 是關於時間的函數
  • Q^*(a) 的估計需要更關注最近的觀測樣本

因爲不平穩

Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]

\begin{aligned} Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]\\ =\alpha R_n + (1-\alpha)Q_n\\ =\alpha R_n + (1-\alpha)[\alpha R_{n-1} + (1 - \alpha)Q_{n-1}]\\ =\alpha R_n + (1-\alpha)\alpha R_{n-1} + (1-\alpha)(1 - \alpha)Q_{n-1}\\ = \alpha R_n + (1-\alpha) \alpha R_{n-1} + (1- \alpha)^2 \alpha R_{n-2} + \cdots + (1-\alpha)^{n-1} \alpha R_1 + (1 - \alpha) Q_1\\ = (1-\alpha)^nQ_1 +\sum_{i=1}^n \alpha(1-\alpha)^{n-i} R_i \end{aligned}

這樣做的好處就是讓更新更關注最近的效果,

更新步長的選擇

並不是所有的步長選擇 \alpha_n(a) 都保證收斂

  • \alpha_n(a) = \frac{1}{n} 收斂
  • \alpha_n(a) = \alpha 不收斂
收斂條件

\sum_{n=1}^{\infty} \alpha_n(\alpha) = \infty \, and \, \sum_{n=1}^{\infty} \alpha^2_n(\alpha) < \infty

  • 第一個條件保證步長足夠大,克服初值或隨機擾動的影響,收斂與初始值無關
  • 第二個條件保證步長最終會越來越小,小到保證收斂,表示收斂會越來越小

行爲選擇策略

  • 如何制定合適的行爲選擇策略
    • 貪心策略: 選擇當前估值最好的行爲
    • \epsilon 貪心策略: 以一定的概率隨機選擇非貪心行爲(non-greedy actions),但是對於非貪心行爲不加區分
  • 行爲選擇策略
    • 平衡利用(Exploitation)和探索(Exploration),應對行爲估值的不確定性
    • 關鍵: 確定每一個行爲被選擇的概率
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章