HRL 層級增強學習

原文地址 https://m.chuansongme.com/n/2992112952010

1. 層級增強學習

Hierarchical Reinforcement Learning

 

層次強化學習(HRL)是一種計算方法,旨在通過學習在不同的時間抽象層次上操作來解決這些問題。

 

爲了真正理解在學習算法中需要一個層次結構,以及爲了在RL(增強學習)和 HRL 之間架起橋樑,我們需要記住我們正在努力解決的問題: MDPs (馬可夫決策過程)。 HRL 方法學習由多個層組成的策略,每個層負責時間抽象的不同級別的控制。 事實上,HRL 的關鍵創新之處在於擴展了一系列可用的操作,這樣受訓者不僅可以選擇執行基本操作,而且還可以執行宏操作(即一系列較低級別的操作)。 因此,對於隨着時間推移而延長的行動,我們必須考慮到決策時刻之間所經過的時間。 幸運的是,MDP 規劃和學習算法可以很容易地擴展以適應 HRL。

 

2. 封建學習

Feudal Learning

 

受中世紀歐洲封建制度的啓發,這種 HRL 方法演示瞭如何創建一種管理學習等級制度,在這種制度下,領主(或管理者)學會將任務(或次級目標)分配給他們的農奴(或次級管理者) ,而農奴(或次級管理者)則學會滿足他們。 次級經理學會最大限度地增強他們的命令(如下圖中的黑色圓圈)。

 

在實踐中,封建學說利用了兩個概念:

 

  1. 信息隱藏: 管理層以不同的分辨率觀察環境

  2. 隱藏獎勵: 管理者和"員工"之間通過目標進行溝通——達到目標會得到獎勵

 

信息和獎勵隱藏的一個值得注意的效果是,管理者只需要知道他們自己的任務選擇尺度的系統狀態。 他們也不知道他們的工人做出了什麼樣的選擇來滿足他們的命令,因爲系統設置不需要學習。

 

遺憾的是,Feudal Q-learning 學習算法只適用於特定類型的問題,並不能收斂到任何定義良好的最優策略。 但它爲許多其他貢獻鋪平了道路。

 

3.選項框架

Options Framework

 

HRL最著名的理論架構可能是選項框架。與封建學習不同,如果動作空間由原始動作和選項組成,那麼遵循選項框架的算法被證明會收斂到最優策略。 否則,它仍將趨於一致,但將成爲一個等級最優的政策。

 

由此產生的想法是,一個選擇框架由兩個層次組成:

  1. 底層是一個次級政策(進行環境觀察、輸出動作、一直持續到終止)

  2. 頂層是選項之上的政策(進行環境觀察、產出次級政策、一直持續到終止)

 

“選項”非常容易實現,而且在界定高級別能力方面非常有效,這反過來又提高了收斂速度。 此外,選項本身可用於定義選項層次結構。 然而,自然而然地,選項增加了 MDP 的複雜性。 它們也沒有明確地解決任務分割的問題。

 

4.分層抽象機

Hierarchical Abstract Machines

 

分層抽象機(HAMs)由不確定的有限狀態機組成,它們的轉換可能會調用較低級別的機器(最佳操作尚未決定或學習)。 機器是由有限狀態自動機(Finite State Automaton,FSA)表示的部分策略。 有四種機器狀態:

 

1. 動作狀態——在環境中執行一個動作

2. 調用狀態——作爲子例程執行另一臺機器

3. 選擇狀態——概率性地選擇下一個機器狀態

4. 停止狀態——停止機器的執行並將控制返回到前一個調用狀態

 

我們可以將政策視爲程序。 對於 HAMs 來說,學習發生在機器內部,因爲機器只是部分定義的。該方法是將所有的機器分解,並考慮問題的狀態空間 其中 m 是機器狀態,s 是底層 MDP 的狀態。

 

當機器遇到 Call 狀態時,它以確定的方式執行它應該執行的機器。 當它遇到 Stop 狀態時,它只是將命令發送回父計算機。 與直接在 MDP 上進行學習的情況不同,在 HAM 框架中,學習只在 Choice 狀態下進行。 因此,學習發生的狀態空間可能比實際狀態空間小。

 

 

在上面的例子中,每次遇到障礙時,機器進入一個 Choice 狀態,在這個狀態中,機器要麼選擇"跟隨牆機器"(它只是在某個方向上不斷地跟隨牆) ,要麼選擇"後退機器"(後退並繼續執行)。因此,學習機的策略是以多大的概率來決定調用哪臺機器。

 

由於上述所有原因,HAM 框架通過限制可實現策略的類,爲我們提供了簡化 MDP 的能力。 與期權框架類似,它也具有最優性的理論保證。 主要的問題是 HAMs 的設計和實現非常複雜,並且沒有多少重要的應用程序可用。

 

5. MAXQ

MAXQ

 

 

MAXQ 是一種深度學習算法,通過將狀態-動作對的 Q 值分解爲 Q(p,s,a) = V(a, s) + C(p,s,a)得到任務的層次結構,其中 V(a,s) 是執行狀態爲 a 的動作時期望得到的總獎勵(經典Q-learning中的Q), C(p,s,a) 是父任務執行後期望得到的總獎勵。 事實上,動作 a 可能不僅包含一個原始動作,而且還包含一系列動作。

 

本質上,MAXQ 框架可以理解爲將 MDP 的值函數分解爲較小的組成 MDPs 的值函數的組合,一個有限的子任務集合,其中每個子任務被形式化爲:

  1. 一個終止信號

  2. 一系列的動作

  3. 一個準獎勵

 

在這方面,MAXQ 框架與封建 Q-Learning 有關聯。

 

儘管如此,MAXQ 相對於其他框架的優勢在於它學習了一個遞歸最優策略,這意味着父任務的策略在子任務的學習策略下是最優的。 也就是說,任務的策略是與上下文無關的: 每個子任務都是在不參考執行它的上下文的情況下優化解決的。 雖然這並不意味着它將找到一個最佳的政策,但它打開了國家抽象和更好的轉移學習的大門,並可以提供許多其他任務的共同宏觀行動。

 

6. 展望

Outlook

 

Options 框架和 MAXQ 分解都爲算法設計人員提供了強大的工具來分層地解決問題。 如果你對這方面的研究感興趣,讀者可以選擇自己認爲最有前途的方法,或者你認爲最能從改進中獲益的方法。 然後,讀者可以開發新的假設來進行基準測試,使用開源代碼(比如 HIRO、 HAC、 MLSH、 HSP)來構建新的想法,或者通過從上面提到的許多貢獻中汲取靈感,自己實現一個系統。

 

總而言之,如果不能恰當地衡量這些發展,就無法量化這些發展,而且我有一種感覺,即仍然缺乏有效地衡量 HRL 以及更廣泛的 RL 所取得進展的工具。 幸運的是,這個研究領域的社區也在積極地研究這些問題。當然,我們有責任認識到我們領域固有的問題,這些問題不是短期的困難,而是長期的進展緩慢。 我們有責任參與解決這些問題,並以可重複的方式爲進展作出貢獻。

 


 

作者簡介:Yannis Flet-Berliac 是 Inria SequeL 團隊法國里爾北方的大學的博士生。 他的研究項目主要涉及深海強化學習,主要關注隨機和非平穩的環境。 在開始攻讀博士學位之前,他在法國和丹麥主要從事對話模型、機器翻譯和攝影師風格識別方面的工作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章