第二章——多臂老虎機（Multi-armed Bandits）

The most important feature distinguishing reinforcement learning from other types of learning is that it uses training information that evaluates the actions taken rather than instructs by giving correct actions. 使強化學習與其他深度學習模型區分開來的是它會使用學習所得的信息對所採取的行動進行評估，而不是直接給出正確的答案。這其中包含了類似於思考的成分，而有監督學習所得到的卷積神經網絡更像是一種直覺或本能。
These two kinds of feedback are quite distinct: evaluative feedback depends entirely on the action taken, whereas instructive feedback is independent of the action taken. 強化學習模型所給出的反饋完全取決於之前採取的行動（取得的效果），但是有監督學習所給出的反饋則與所採取的行動完全無關。

2.1 k臂老虎機問題

問題綜述，什麼是k臂老虎機問題：You are faced repeatedly with a choice among k different options, or actions. After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period, for example, over 1000 action selections, or time steps.
balance exploration and exploitation. 本章討論的主要內容是如何在exploration（隨機選擇下一步的行動）和exploitation（根據現有經驗選取價值期望最大的行動）之間做出權衡。

2.2 行爲價值方法（Action-value Methods）

對於行動a獲得獎勵(reward)的期望，即行動a的價值(value)可以表示爲
在有限的抽樣次數中，我們對行爲價值的估計可以表示爲

對行動a的價值估計表示爲歷次獎勵的均值
(1) 當行爲價值估計的分母爲0，也就是從未採取行動 $A_t$ ，可以設置估計值的默認值爲0
(2) 如果分母趨近無窮大，根據大數定理，採樣次數無限多時樣本的均值等於期望。
$q_*(a) = Q_t(a)$
使用貪心算法的思想選取行動(exploitation)的數學描述形式爲

即，選取價值估計值最大的行爲方式a。
如果有多個行爲方式(action)的價值估計相同，可以從中隨機選取一個。
關於如何在exploration&exploitation之間權衡，可以使用 $\epsilon-greedy$ 方法。也就是以 $(1-\epsilon)$ 的概率選取最優的方法，而以一個較小的概率 $\epsilon$ 從所有可能的行爲模式(action)中等可能的抽樣。這樣可以保證當抽樣的總次數足夠多時，使所有行爲模式的價值估計都收斂爲對應的價值。
以上討論只是一種近似的假想沒有考慮這種方法的效率問題。

2.3 一個10-armed測試

10個行爲方式選項（Action）的獎勵（Reward）分佈均遵循方差爲1的正態分佈，均值處即爲該行爲方式的價值（value） $q_*$ 。

通過觀察第一幅圖我們得知，標號爲3的行爲(Action)可以獲取最大的獎勵(Reward)，1.5。

$\epsilon=0$ 時，學習模型(agent)很快就停止探索（exploration），容易陷入局部最優
$\epsilon=0.1$ 時，學習模型可以很快找到所有獎勵中的最大值，但所獲得獎勵的期望最大爲 $1.5×(1-\epsilon)$ ，即最大值的90%。
$\epsilon=0.01$ 時，因爲exploration的概率較小，模型找到最大獎勵的用時較長，但可以預見，如果問題是固定、確知的（stationary and deterministic），最終可以比 $\epsilon=0.1$ 時取得更好的效果。

$\epsilon$ 最優值的選取與問題自身的特性有關，如果獎勵額度的方差爲0，那麼 $\epsilon=0$ 時反而能更快地收斂。

2.4 優化“學習成本” (Incremental Implementation)

正如上文所述，我們使用某種行爲方式（action）獲得獎勵（reward）的均值作爲這種行爲價值（value）的期望。簡化 $Q_t(a)$ 的表達方式可以得到

根據這種基於“記憶”的學習方式，我們不難發現一個問題：隨着學習過程的進行，模型記錄的狀態在不斷增多，對存儲空間和計算資源的消耗都是不但增加的。尤其是對價值的估計（ $Q_n$ ）。下面介紹對求解期望的優化方法

這個式子從感性上不難理解：在進行第 $n+1$ 次價值評估時，總共進行了 $n$ 次抽樣，將前 $n$ 次的評估結果( $Q_n$ )作爲基礎，疊加上本次抽樣結果對前 $(n-1)$ 次抽樣均值的影響。該推導過程的倒數第三行就是利用前 $(n-1)$ 次抽樣的均值求累加和的步驟。
經過優化後的k臂老虎機問題可以用下圖來總結。

2.5 適應環境的變化（Tracking a Nonstationary Problem）

爲了能夠適應環境變化，我們應該將更多的精力放在最新的抽樣結果上。按照2.4中價值估計的計算方式不難發現
$Q_{n+1}=\frac{1}{n}{(R_n-Q_n)}+Q_n$
隨着學習次數的增加 $n$ 會逐漸增大，即價值估計的變化率會逐漸降低。對於一個價值期望穩定的問題， $Q_n$ 會逐漸收斂到期望的真實值。但環境總是不斷變化的，爲了保證模型能更好的適應新環境，學習的過程更應該“着眼當下”。

$[R_n-Q_n]$ ：現實（Reward）與理想（Value）之間的差距。
$a$ ： $(0, 1]$ 之間的常數，叫做步長或學習率，當 $a=1$ ，學習結果就會完全取決於最後一次採樣的結果 $R_n$ 。相反，當 $a=0$ 則完全不會進行學習，這已經違背了初衷，因此 $a=0$ 無意義。
其中，參數的累加和爲1，證明如下：
$(1-a)^n+\sum_{i=1}^na(1-a)^{n-i}=1$
$證:(1-a)^n+a×\frac{1-(1-a)^n}{a}=1$
我們觀察，在包括初始值 $Q_1$ 的所有樣本內，價值估計中佔比最高的永遠是最新的採樣值 $R_n$ ，即（ $a×R_n$ ），其他樣本的權重隨時間的“久遠”程度以 $(1-a)^t$ 指數衰減。這與艾賓浩斯遺忘曲線的趨勢是一致的。

收斂性問題

我們以符號 $a_n(n)$ 表示第n次參數更新的學習率。利用隨即近似理論中的結論， $a_n(n)$ 必須滿足：

才能保證學習的結果最終收斂。顯然，任何以常數作爲步長的取值都不符合條件。對於一個價值期望不斷髮生變化的問題，不收斂反而有助於對環境的適應。對比之前 $a_n(n)=\frac1n$ 的應用場景很容易發現其中的不同，而 $a_n(n)=\frac1n$ 是符合收斂條件的。

2.6 優化初始值

對於行爲價值模型（“求獎勵（reward）平均值”來獲得價值期望）的學習方式，任何行爲模式（action）的初始化價值偏差 $Q_1(a)$ 將在學習過程中隨第一個 $R_a$ 的獲取而消除。但是對於使用常數 $a$ 作爲學習率的方式（該種模型可以更好適應環境變化）初始值 $Q_1(a)$ 的影響不會消除，但是會隨着學習過程而被逐漸“遺忘”（權重降低）。

制定初始值的優點

給模型定義初始值的優點是可以人工引入一些先驗知識，來加速學習的過程。
激勵模型進行探索（exploration)，對於行爲價值模型，如果給定所有可能的行爲方式一個遠高於價值（value）期望的初始值（不可能通過任何行爲方式獲得如此高的獎勵），那麼模型在學習過程中會遍歷所有可能的情況。試想：學習剛開始時，模型嘗試每一種行爲都會得到一個比初始值預期更低的獎勵值，按照貪心算法的思想，在受挫之後，模型會不斷嘗試其餘高期望的行爲模式，直到把所有情況都試個遍，才明白現實如此殘酷。但在最終收斂之前，模型已經遍歷所有可能，有助於提高模型學習結果的準確性，加速了學習過程。

可以看到，高初始值所帶來的效果起初比一般方法要差一些，因爲強制模型進行了更多的探索（exploration）但長遠來看是對學習效果有利的。

高初始值激勵方式的侷限性

（1）不適用於環境會發生變化的應用場景，初始化起到的效果是一次性的。
（2）不適合狀態（state）集合無窮大的情況。
（3）有效性與學習模型相關，起碼在上文介紹的額sample-average模型種是有效的。

2.7 追求更高確信度的行爲選擇（Upper-Confidence-Bound Action Selection）

上文介紹的普通 $\epsilon-greedy$ 選擇策略，在貪心算法思想上增加行爲模式選擇的隨機性，以探索更多可能的行爲模式，提高模型的適應性。但是這種隨機選擇是漫無目的的。我們更需要去探索（exploration）那些幾乎沒有被使用過的行爲模式，它們具有更多的不確定性。以下是基於上述思想的數學表達。

可以看到 $A_t=\mathop{argmax}\limits_{a}[Q_t(a)]$ 所表達的就是貪心算法思想。根號內的偏置項用於衡量行爲 $a$ 的不確定性（是否很少被眷顧）。 $t$ 表示模型行爲模式決策的總次數而 $N_t(a)$ 則代表行爲模式a被採用的次數。顯而易見，當行爲模式 $a$ 被較少採用時，其不確定性就會增加。常數c則用於調整模型對探索(exploration)的偏好程度，作用與 $\epsilon-greedy$ 模型的 $\epsilon$ 類似。

優勢

（1）UCB（Upper-Confidence-Bound）可以保證所有行爲模式都以更合理的頻率被採用，能更好的對抗噪聲和隨機性。
（2）爲那些有低價值期望的行爲模式更高的執行機會（隔一段時間就能被重新翻牌子）。

缺陷

（1）不能處理狀態空間非常大的問題。

2.8 梯度算法（Gradient Bandit Algorithms）

In this section we consider learning a numerical preference for each action
a, which we denote Ht(a). The larger the preference, the more often that action is taken, but the preference has no interpretation in terms of reward. 這部分中，我們假定學習結果是對某種行爲方式（action）的偏好程度 $H_t(a)$ ，偏好程度越高，被採用的機率越大。與上文討論的sample-average策略不同，這種偏好程度與行爲模式獲得的獎勵（reward）無關。
Only the relative preference of one action over another is important; if we add 1000 to all the action preferences there is no effect on the action probabilities, which are determined according to a soft-max distribution. 只有行爲模式之間偏好 $H_t(a)$ 差距是有意義的。
soft-max distribution. 使用soft-max計算行爲模式a被採用得到概率:

符號 $\pi_t(a)$ 用於表示行爲模式a（action）在時間t時被採用的概率。
行爲模式偏好的更新方式爲其中 $\overline{R_t}$ 是期望的均值，可以通過sample-average模型或是Nonstationary Problem的處理方式得到。

如何理解

a stochastic approximation to gradient ascent. 偏好的更新方式是對價值期望進行梯度上升的隨機近似。

下面是梯度上升的表達式

式中 $E[R_t]$ 是指對 $t$ 時刻將獲取的獎勵 $R_t$ 的期望值
問題是：我們無從得知行爲x的價值 $q_*(x)$ 。

證明等效性

證明上面兩組公式的等效性， $H_t(a)$ 的部分是一樣的，來看微分部分:
$\frac{\partial{E[R_t]}}{\partial{H_t(a)}}=\frac{\partial}{\partial{H_t(a)}}\sum_{x}{\pi_t(x)q_*(x)} \\=\sum_{x}q_*(x)\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}} \\=\sum_{x}q_*(x)\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}}-0 \\=\sum_{x}q_*(x)\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}}-\overline{R_t}\frac{\partial\sum_{x}{{\pi_t(x)}}}{\partial{H_t(a)}} \\=\sum_{x}[q_*(x)-\overline{R_t}]\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}} \\=\sum_x{\frac{\pi_t(x)[q_*(x)-\overline{R_t}]\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}}}{\pi_t(x)}} \\={{\frac{E\{[R(A_t)-\overline{R_t}]\frac{\partial{{\pi_t(A_t)}}}{\partial{H_t(a)}}\}}{\pi_t(A_t)}}}\qquad① \\=E{\frac{[R(A_t)-\overline{R_t}][\pi_t(A_t)(1_{a=A_t}-\pi_t(a))]}{\pi_t(A_t)}}\qquad② \\=E\{{{[R(A_t)-\overline{R_t}][1_{a=A_t}-\pi_t(a)]}}\} \\\approx{{[R(A_t)-\overline{R_t}][1_{a=A_t}-\pi_t(a)]}}\qquad③$
① 因爲行爲模式a的價值 $q_x(a)$ 未知，價值的期望 $\sum_x{[\pi_t(x)q_*(x)]}$ 可以用獎勵的期望 $E[R(A_t)]$ 代替。
② $\frac{\partial{{\pi_t(A_t)}}}{\partial{H_t(a)}}=[\pi_t(A_t)(1_{a=A_t}-\pi_t(a))]$ 是soft-max函數微分的性質。
③ 隨機梯度上升思想，使用對樣本的多次取樣來代替均值。
將推導的結果帶入原式即可證明等效性。

2.9 關聯（上下文）搜索 Associative Search

關聯搜索是多臂老虎機問題和完全強化學習的過渡。它與完全強化學習的相似之處在於模型需要根據情景（上下文）自行學習執行策略，注意這裏的行爲策略是policy而不是action。關聯搜索與多臂老虎機問題的相似之處是每一次決定僅影響當前獲取的獎勵（reward)，但是如果模型的選擇將影響下一步的狀態和獎勵，這就變成了完全強化學習問題（例如下棋）。

2.10 總結

The " $\epsilon-greedy$ methods choose randomly a small fraction of the time.
UCB methods choose deterministically but achieve exploration by subtly favoring at each step the actions that have so far received fewer samples.
Gradient bandit algorithms estimate not action values, but action preferences, and favor the more preferred actions in a graded, probabilistic manner using a soft-max distribution.
The simple expedient of initializing estimates optimistically causes even greedy methods to explore significantly.

《強化學習》第二版閱讀隨筆2

第二章——多臂老虎機（Multi-armed Bandits）

2.1 k臂老虎機問題

2.2 行爲價值方法（Action-value Methods）

2.3 一個10-armed測試

2.4 優化“學習成本” (Incremental Implementation)