新詞彙:元學習/增強學習

/1強化學習/增強學習 Reinforcement Learning

參考 cs231n 14節課 深度增強學習

強化學習是一種無監督學習,即輸入數據x沒有label,需要找出隱藏的數據結構。Markov Decision Process(MDP,馬爾可夫決策過程)是強化學習的數學表示,滿足Markov 性,即當前狀態完全刻畫世界狀態。

馬爾可夫決策步驟:

1* t=0,初始狀態s0從p(s0)初始狀態分佈中採樣。

2* 整個過程從t=0開始迭代,直至結束:環境賦予代理一個狀態st,代理採取一個行動at到環境,環境再回饋給代理一個獎勵rt及下一個狀態st+1。

馬爾可夫決策過程用集合(S,A,R,P,r)表示,S爲可能的狀態的集合,A爲可能的行動的集合,R爲獎勵的分佈函數(給定s和a,從狀態到獎勵的函數映射),p爲下一狀態的轉移概率分佈,r爲折扣因子,即獎勵的分配權重。

 

要找到最優決策使得獎勵最大,這裏定義了兩個概念:有值函數和Q值函數。要有最優的Q值函數,則要滿足Bellman方程,通過Bellman等式迭代更新,強化Bellman等式,使得改進對最優的Q值的近似。但是迭代更新時,狀態很隨機,我們可以用神經網絡逼近一個複雜的函數形式,求得狀態和行動。這裏給了兩種方法:Q-Learing(定義loss和梯度更新,找到滿足Bellman方程的Q函數)、策略梯度。

/2元學習 Meta Learning/Learning to learn

理論研究趨勢:人工智能 --> 機器學習 --> 深度學習 --> 深度強化學習 --> 深度元學習。機器學習解決了複雜一點的分類問題,深度學習解決了一對一映射的問題。Deep Learning + Reinforcement Learning = Deep Reinforcement Learning。有了深度增強學習,序列決策(sequential decision making)初步取得成效。但是深度增強學習太依賴於巨量的訓練,並且需要精確的獎勵。人類之所以能夠快速學習的關鍵是人類具備學會學習的能力,能夠充分的利用以往的知識經驗來指導新任務的學習。在有限的動作空間內,深度增強學習算法有一定的作用。但當動作空間過於複雜時,如何使人工智能能夠學會思考,構造戰術非常關鍵。這個問題甚至比快速學習還要困難,但是元學習因爲具備學會學習Learning to learn的能力,或許也可以學會思考,所以元學習是實現通用人工智能的關鍵。

相關論文:《Learning to Learn: Meta-Critic Networks for Sample Efficient Learning》

 

讓AI在學習各種任務後形成一個核心的價值網絡,從而面對新的任務時,可以利用已有的核心價值網絡來加速AI的學習速度。Meta-Critic Network的基本示意圖如上。我們以CartPole這個讓杆保持平衡的任務來做分析。在我們這裏,杆的長度是任意的,我們希望AI在學習了各種長度的杆的任務後,面對一個新的長度的杆,能夠快速學習,掌握讓杆保持平衡的訣竅。

每一個訓練任務我們都構造一個行動網絡(Actor Network),但是我們只有一個核心指導網絡(Meta-Critic Network),這個網絡包含兩部分:一個是核心價值網絡(Meta Value Network),另一個則是任務行爲編碼器(Task-Actor Encoder)。我們用多個任務同時訓練這個Meta Critic Network。訓練方式可以是常見的Actor-Critic。訓練時最關鍵的就是Task-Actor Encoder,我們輸入任務的歷史經驗(包括狀態state,動作action,和回饋reward),然後得到一個任務的表示信息z,將z和一般價值網絡的輸入(狀態state和動作action)連接起來,輸入到Meta Value Network中。

通過這種方式,我們可以訓練出一個Meta Critic Network。面對新的任務(也就是杆的長度變化了),我們新建一個行動網絡Actor Network,但是卻保持Meta Critic Network不變,然後同樣使用Actor-Critic方法(cs231n 14講解)進行訓練。其實z的分佈和CartPole杆的長度是直接相關的,這意味着任務行爲編碼器確實可以利用以往的經驗來理解一個任務的配置信息。Meta-Critic Network作爲一種全新的Meta Learning方法,通過訓練出一個核心指導網絡(也就是核心價值觀),從而能夠指導新任務的快速學習。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章