強化學習在展現其強大學習能力的同時也深受其自身特性的困擾:系統的脆弱性和對超參數的依賴性。這一點在現今的複雜深度強化學習系統中表現的尤爲突出。因此,近年來,元強化學習漸漸迴歸視線,即將基礎強化學習方法中手動設定的超參數設定爲元參數,通過元學習方法學習和調整元參數,進一步指導底層的強化學習過程。
打算最近介紹一個系列,今天先來說說這篇2003年的Meta-learning in Reinforcement Learning,雖然當時RL還沒有和DL相結合,但是文章中的很多想法都很有預見性,同時與生物特性的聯繫討論也很有啓發性。
RL中的元參數
- 學習率 : 控制訓練速度,過小導致學習緩慢,過大則導致學習過程振盪。
- 逆溫度係數 : 在依概率隨機選取動作的設定下,往往採用其中 爲狀態-動作值函數。此時逆溫度係數 控制着探索-利用之間的權衡。理想情況下, 在學習的初始階段應該較小,因爲此時智能代理還不能將動作很好地映射到其長期彙報,應該鼓勵更多的探索;並且隨着代理獲得越來越大的獎勵而逐漸增大。
- 折扣因子 : 指示代理應該將未來多遠的獎勵納入考慮範圍。如果 較小,則代理只考慮短期收益,如果 則意味着代理要將未來長期所有的收益都納入考慮。但在實際中有幾個原因阻礙了這一點:其一,任何代理都有有限的壽命,無論是人工的還是生物的,一個有折扣的價值函數 = 一個無折扣的價值函數 + 一個有固定死亡率 的代理。其二,代理所能接受的獎勵延遲是有限度的,如動物必須在餓死之前找到食物。其三,如果環境轉移動態是隨機不平穩的,那麼長期預測註定不可靠。其四,學習價值函數的複雜度 .
元參數學習算法
算法參考了隨機實值單元(SRV)的思想。SRV 單元的輸出爲其輸入的加權和再加上一個小的擾動,以提供必要的探索能力。以元參數 爲例:其中 是平均項, 是噪聲項,每 個時間步重新採樣一次,.
爲了更新 ,需要計算短期平均獎勵和長期平均獎勵之間的差異,這個差異和擾動之間的相關性給出了元學習方程:其中 是元學習率, 和 分別爲短期和長期的平均獎勵。其更新方式爲:其中 和 爲時間常數。
如果擾動導致的獎勵高於長期平均水平,元參數就朝着擾動發生的方向更新。其他元參數 和 的更新方式都類似,並且與基礎強化學習算法無關。
實驗
實驗包含兩部分:
有效性
第一部分主要說明其有效性:簡單、魯棒、通用,能找到接近最優的元參數。
自適應性
第二部分說明算法的動態、自適應能力。在時間步 2w 處,環境獎勵的規模發生劇烈改變,推理的難度提升,原有的短視的參數無法爲長期延遲的鉅額獎勵做出必要的犧牲,表現急劇下滑,而後通過自身的自適應能力重新學得適應新環境的元參數。
討論
由於該算法的計算和存儲需求都很小,且不依賴於底層強化學習方法,因此可用於描述計算神經科學中的生物元學習。具體來說,是設定元參數的神經調質理論。可以猜想,血清素控制 ,去甲腎上腺素控制 ,乙酰膽鹼控制 . 並且:
- 神經調質神經元具有自發性波動,對算法中的擾動項相對應,由生物本身的活動水平控制。
- 多巴胺的階段性發射帶有短期獎勵,而多巴胺的強直性發射帶有長期的對手信號(Daw et al, 2002)。如果我們認爲長期的對手過程與長期的獎勵過程完全相反,那麼多巴胺神經元可以攜帶執行短期和長期獎勵平均值相減的信號。
- 神經調質神經元具有多巴胺依賴可塑性。可以猜想,階段性多巴胺信號是強化學習所需的獎勵,而完整的多巴胺信號則是強化學習的元學習的獎勵。