元強化學習(1):Meta-learning in Reinforcement Learning

強化學習在展現其強大學習能力的同時也深受其自身特性的困擾:系統的脆弱性和對超參數的依賴性。這一點在現今的複雜深度強化學習系統中表現的尤爲突出。因此,近年來,元強化學習漸漸迴歸視線,即將基礎強化學習方法中手動設定的超參數設定爲元參數,通過元學習方法學習和調整元參數,進一步指導底層的強化學習過程。

打算最近介紹一個系列,今天先來說說這篇2003年的Meta-learning in Reinforcement Learning,雖然當時RL還沒有和DL相結合,但是文章中的很多想法都很有預見性,同時與生物特性的聯繫討論也很有啓發性。

RL中的元參數

  • 學習率 α\alpha: α\alpha 控制訓練速度,過小導致學習緩慢,過大則導致學習過程振盪。
  • 逆溫度係數 β\beta: 在依概率隨機選取動作的設定下,往往採用p(as)=eβQ(s,a)aeβQ(s,a)p(a|s) = \frac{e^{\beta Q(s,a)}}{\sum_{a'}e^{\beta Q(s,a')}}其中 QQ 爲狀態-動作值函數。此時逆溫度係數 β\beta 控制着探索-利用之間的權衡。理想情況下,β\beta 在學習的初始階段應該較小,因爲此時智能代理還不能將動作很好地映射到其長期彙報,應該鼓勵更多的探索;並且隨着代理獲得越來越大的獎勵而逐漸增大。
  • 折扣因子 γ\gamma: γ\gamma 指示代理應該將未來多遠的獎勵納入考慮範圍。如果 γ\gamma 較小,則代理只考慮短期收益,如果 γ=1\gamma=1 則意味着代理要將未來長期所有的收益都納入考慮。但在實際中有幾個原因阻礙了這一點:其一,任何代理都有有限的壽命,無論是人工的還是生物的,一個有折扣的價值函數 = 一個無折扣的價值函數 + 一個有固定死亡率 1γ1-\gamma 的代理。其二,代理所能接受的獎勵延遲是有限度的,如動物必須在餓死之前找到食物。其三,如果環境轉移動態是隨機不平穩的,那麼長期預測註定不可靠。其四,學習價值函數的複雜度 1/(1γ)\propto 1/(1-\gamma).

元參數學習算法

算法參考了隨機實值單元(SRV)的思想。SRV 單元的輸出爲其輸入的加權和再加上一個小的擾動,以提供必要的探索能力。以元參數 γ\gamma 爲例:γ(t)=11eγb(t)\gamma(t)=1-\frac{1}{e^{\gamma_b(t)}}其中γb(t)=γb0+σγ(t)\gamma_b(t)=\gamma_{b_0}+\sigma_{\gamma}(t)γb0(t)\gamma_{b_0}(t) 是平均項,σγ(t)N(0,v)\sigma_{\gamma}(t) \sim N(0,v) 是噪聲項,每 nn 個時間步重新採樣一次,n1n\gg1.

爲了更新 γb0(t)\gamma_{b_0}(t),需要計算短期平均獎勵和長期平均獎勵之間的差異,這個差異和擾動之間的相關性給出了元學習方程:Δγb0(t)=μ(rˉ(t)rˉˉ(t))σγ(t)\Delta\gamma_{b_0}(t)=\mu\left(\bar{r}(t)-\bar{\bar{r}}(t)\right)\sigma_{\gamma}(t)其中 μ\mu 是元學習率,rˉ(t)\bar{r}(t)rˉˉ(t)\bar{\bar{r}}(t)分別爲短期和長期的平均獎勵。其更新方式爲:Δrˉ(t)=1τ1(rˉ(t)+r(t))\Delta\bar{r}(t)=\frac{1}{\tau_1}(-\bar{r}(t)+r(t))Δrˉˉ(t)=1τ2(rˉˉ(t)+rˉ(t))\Delta\bar{\bar{r}}(t)=\frac{1}{\tau_2}(-\bar{\bar{r}}(t)+\bar{r}(t))其中τ1\tau_1τ2\tau_2 爲時間常數。

如果擾動導致的獎勵高於長期平均水平,元參數就朝着擾動發生的方向更新。其他元參數 α\alphaβ\beta 的更新方式都類似,並且與基礎強化學習算法無關。

實驗

實驗包含兩部分:

有效性

第一部分主要說明其有效性:簡單、魯棒、通用,能找到接近最優的元參數。在這裏插入圖片描述

自適應性

第二部分說明算法的動態、自適應能力。在時間步 2w 處,環境獎勵的規模發生劇烈改變,推理的難度提升,原有的短視的參數無法爲長期延遲的鉅額獎勵做出必要的犧牲,表現急劇下滑,而後通過自身的自適應能力重新學得適應新環境的元參數。在這裏插入圖片描述

討論

由於該算法的計算和存儲需求都很小,且不依賴於底層強化學習方法,因此可用於描述計算神經科學中的生物元學習。具體來說,是設定元參數的神經調質理論。可以猜想,血清素控制 γ\gamma,去甲腎上腺素控制 β\beta,乙酰膽鹼控制 α\alpha. 並且:
在這裏插入圖片描述

  1. 神經調質神經元具有自發性波動,對算法中的擾動項相對應,由生物本身的活動水平控制。
  2. 多巴胺的階段性發射帶有短期獎勵,而多巴胺的強直性發射帶有長期的對手信號(Daw et al, 2002)。如果我們認爲長期的對手過程與長期的獎勵過程完全相反,那麼多巴胺神經元可以攜帶執行短期和長期獎勵平均值相減的信號。
  3. 神經調質神經元具有多巴胺依賴可塑性。可以猜想,階段性多巴胺信號是強化學習所需的獎勵,而完整的多巴胺信號則是強化學習的元學習的獎勵。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章