問題描述：the 10-armed bandit problem

這是一個重複做選擇的問題。一共有10個選擇，重複選擇1000次。

每次選擇都會有獎勵，獎勵是符合固定的正態分佈的。

所以做不同的選擇，獲得的獎勵不同；每次做的選擇，儘管選擇相同，但獎勵也不同。

你的目的是，連續做了1000次選擇後，得到的回報總和越高越好。

這個圖是一個特殊的 10-armed bandit problem。特殊之處在於 $q_\star (a)$ 的值。

重要：10-armed bandit problem是一個系列問題的總稱，每個特殊的10-armed bandit problem之間的不同之處在於 $q_\star (a)$ 的值的不同。選擇選項 $a$ 後，獲得獎勵是符合正態分佈的 $N(q_\star(a),1)$ 。

算法1： $\epsilon-greedy$ algorithm

你是不知道 $q_\star(a)$ 的具體值的，所以首先要對每個選擇的行爲值做個估計，因爲這個估計值是在不斷更新的，所以定義爲 $Q_t( a )$ ，意思是在 $t$ 時刻，選擇行爲 $a$ 後，估計得到的獎勵值。

這個算法的大概步驟是：每次選擇執行的行爲是估計值最大的行爲，小概率的情況下，隨機選擇其他的行爲。

算法步驟如下：

因爲存在不確定性，每次的回報都是服從一個正態分佈，所以每次做實驗的結果也是不一樣的。爲了說明問題，我們做2000次仿真實驗，每次仿真實驗都是，然後取平均值。

對於某一$\epsilon $的仿真步驟如下：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.