元強化學習（1）：Meta-learning in Reinforcement Learning

原創

2020-06-22 11:17

強化學習在展現其強大學習能力的同時也深受其自身特性的困擾：系統的脆弱性和對超參數的依賴性。這一點在現今的複雜深度強化學習系統中表現的尤爲突出。因此，近年來，元強化學習漸漸迴歸視線，即將基礎強化學習方法中手動設定的超參數設定爲元參數，通過元學習方法學習和調整元參數，進一步指導底層的強化學習過程。

打算最近介紹一個系列，今天先來說說這篇2003年的Meta-learning in Reinforcement Learning，雖然當時RL還沒有和DL相結合，但是文章中的很多想法都很有預見性，同時與生物特性的聯繫討論也很有啓發性。

RL中的元參數

學習率 $\alpha$ : $\alpha$ 控制訓練速度，過小導致學習緩慢，過大則導致學習過程振盪。
逆溫度係數 $\beta$ : 在依概率隨機選取動作的設定下，往往採用 $p(a|s) = \frac{e^{\beta Q(s,a)}}{\sum_{a'}e^{\beta Q(s,a')}}$ 其中 $Q$ 爲狀態-動作值函數。此時逆溫度係數 $\beta$ 控制着探索-利用之間的權衡。理想情況下， $\beta$ 在學習的初始階段應該較小，因爲此時智能代理還不能將動作很好地映射到其長期彙報，應該鼓勵更多的探索；並且隨着代理獲得越來越大的獎勵而逐漸增大。
折扣因子 $\gamma$ : $\gamma$ 指示代理應該將未來多遠的獎勵納入考慮範圍。如果 $\gamma$ 較小，則代理只考慮短期收益，如果 $\gamma=1$ 則意味着代理要將未來長期所有的收益都納入考慮。但在實際中有幾個原因阻礙了這一點：其一，任何代理都有有限的壽命，無論是人工的還是生物的，一個有折扣的價值函數 = 一個無折扣的價值函數 + 一個有固定死亡率 $1-\gamma$ 的代理。其二，代理所能接受的獎勵延遲是有限度的，如動物必須在餓死之前找到食物。其三，如果環境轉移動態是隨機不平穩的，那麼長期預測註定不可靠。其四，學習價值函數的複雜度 $\propto 1/(1-\gamma)$ .

元參數學習算法

算法參考了隨機實值單元（SRV）的思想。SRV 單元的輸出爲其輸入的加權和再加上一個小的擾動，以提供必要的探索能力。以元參數 $\gamma$ 爲例： $\gamma(t)=1-\frac{1}{e^{\gamma_b(t)}}$ 其中 $\gamma_b(t)=\gamma_{b_0}+\sigma_{\gamma}(t)$ $\gamma_{b_0}(t)$ 是平均項， $\sigma_{\gamma}(t) \sim N(0,v)$ 是噪聲項，每 $n$ 個時間步重新採樣一次， $n\gg1$ .

爲了更新 $\gamma_{b_0}(t)$ ，需要計算短期平均獎勵和長期平均獎勵之間的差異，這個差異和擾動之間的相關性給出了元學習方程： $\Delta\gamma_{b_0}(t)=\mu\left(\bar{r}(t)-\bar{\bar{r}}(t)\right)\sigma_{\gamma}(t)$ 其中 $\mu$ 是元學習率， $\bar{r}(t)$ 和 $\bar{\bar{r}}(t)$ 分別爲短期和長期的平均獎勵。其更新方式爲： $\Delta\bar{r}(t)=\frac{1}{\tau_1}(-\bar{r}(t)+r(t))$ $\Delta\bar{\bar{r}}(t)=\frac{1}{\tau_2}(-\bar{\bar{r}}(t)+\bar{r}(t))$ 其中 $\tau_1$ 和 $\tau_2$ 爲時間常數。

如果擾動導致的獎勵高於長期平均水平，元參數就朝着擾動發生的方向更新。其他元參數 $\alpha$ 和 $\beta$ 的更新方式都類似，並且與基礎強化學習算法無關。

實驗

實驗包含兩部分：

有效性

第一部分主要說明其有效性：簡單、魯棒、通用，能找到接近最優的元參數。

自適應性

第二部分說明算法的動態、自適應能力。在時間步 2w 處，環境獎勵的規模發生劇烈改變，推理的難度提升，原有的短視的參數無法爲長期延遲的鉅額獎勵做出必要的犧牲，表現急劇下滑，而後通過自身的自適應能力重新學得適應新環境的元參數。

討論

由於該算法的計算和存儲需求都很小，且不依賴於底層強化學習方法，因此可用於描述計算神經科學中的生物元學習。具體來說，是設定元參數的神經調質理論。可以猜想，血清素控制 $\gamma$ ，去甲腎上腺素控制 $\beta$ ，乙酰膽鹼控制 $\alpha$ . 並且：

神經調質神經元具有自發性波動，對算法中的擾動項相對應，由生物本身的活動水平控制。
多巴胺的階段性發射帶有短期獎勵，而多巴胺的強直性發射帶有長期的對手信號（Daw et al, 2002）。如果我們認爲長期的對手過程與長期的獎勵過程完全相反，那麼多巴胺神經元可以攜帶執行短期和長期獎勵平均值相減的信號。
神經調質神經元具有多巴胺依賴可塑性。可以猜想，階段性多巴胺信號是強化學習所需的獎勵，而完整的多巴胺信號則是強化學習的元學習的獎勵。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

元強化學習（1）：Meta-learning in Reinforcement Learning

RL中的元參數

元參數學習算法

實驗

有效性

自適應性

討論

部分推薦系統論文 list

用 tf.scan() 自主實現/改造 RNN cell (GRU/LSTM)

元強化學習（1）：Meta-learning in Reinforcement Learning

tensorflow 多Agent 靈活保存、更新Graph的各部分參數（tf.variable_scope(), tf.get_collection(), tf.train.Saver()）

強化學習論文(1): Soft Actor-Critic

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結