HRL 層級增強學習

原文地址 https://m.chuansongme.com/n/2992112952010

1. 層級增強學習

Hierarchical Reinforcement Learning

層次強化學習(HRL)是一種計算方法，旨在通過學習在不同的時間抽象層次上操作來解決這些問題。

爲了真正理解在學習算法中需要一個層次結構，以及爲了在RL（增強學習）和 HRL 之間架起橋樑，我們需要記住我們正在努力解決的問題: MDPs （馬可夫決策過程）。 HRL 方法學習由多個層組成的策略，每個層負責時間抽象的不同級別的控制。事實上，HRL 的關鍵創新之處在於擴展了一系列可用的操作，這樣受訓者不僅可以選擇執行基本操作，而且還可以執行宏操作（即一系列較低級別的操作）。因此，對於隨着時間推移而延長的行動，我們必須考慮到決策時刻之間所經過的時間。幸運的是，MDP 規劃和學習算法可以很容易地擴展以適應 HRL。

2. 封建學習

Feudal Learning

受中世紀歐洲封建制度的啓發，這種 HRL 方法演示瞭如何創建一種管理學習等級制度，在這種制度下，領主(或管理者)學會將任務(或次級目標)分配給他們的農奴(或次級管理者) ，而農奴(或次級管理者)則學會滿足他們。次級經理學會最大限度地增強他們的命令（如下圖中的黑色圓圈）。

在實踐中，封建學說利用了兩個概念:

信息隱藏: 管理層以不同的分辨率觀察環境
隱藏獎勵: 管理者和"員工"之間通過目標進行溝通——達到目標會得到獎勵

信息和獎勵隱藏的一個值得注意的效果是，管理者只需要知道他們自己的任務選擇尺度的系統狀態。他們也不知道他們的工人做出了什麼樣的選擇來滿足他們的命令，因爲系統設置不需要學習。

遺憾的是，Feudal Q-learning 學習算法只適用於特定類型的問題，並不能收斂到任何定義良好的最優策略。但它爲許多其他貢獻鋪平了道路。

3.選項框架

Options Framework

HRL最著名的理論架構可能是選項框架。與封建學習不同，如果動作空間由原始動作和選項組成，那麼遵循選項框架的算法被證明會收斂到最優策略。否則，它仍將趨於一致，但將成爲一個等級最優的政策。

由此產生的想法是，一個選擇框架由兩個層次組成:

底層是一個次級政策（進行環境觀察、輸出動作、一直持續到終止）
頂層是選項之上的政策（進行環境觀察、產出次級政策、一直持續到終止）

“選項”非常容易實現，而且在界定高級別能力方面非常有效，這反過來又提高了收斂速度。此外，選項本身可用於定義選項層次結構。然而，自然而然地，選項增加了 MDP 的複雜性。它們也沒有明確地解決任務分割的問題。

4.分層抽象機

Hierarchical Abstract Machines

分層抽象機（HAMs）由不確定的有限狀態機組成，它們的轉換可能會調用較低級別的機器(最佳操作尚未決定或學習)。機器是由有限狀態自動機(Finite State Automaton，FSA)表示的部分策略。有四種機器狀態:

1. 動作狀態——在環境中執行一個動作

2. 調用狀態——作爲子例程執行另一臺機器

3. 選擇狀態——概率性地選擇下一個機器狀態

4. 停止狀態——停止機器的執行並將控制返回到前一個調用狀態

我們可以將政策視爲程序。對於 HAMs 來說，學習發生在機器內部，因爲機器只是部分定義的。該方法是將所有的機器分解，並考慮問題的狀態空間其中 m 是機器狀態，s 是底層 MDP 的狀態。

當機器遇到 Call 狀態時，它以確定的方式執行它應該執行的機器。當它遇到 Stop 狀態時，它只是將命令發送回父計算機。與直接在 MDP 上進行學習的情況不同，在 HAM 框架中，學習只在 Choice 狀態下進行。因此，學習發生的狀態空間可能比實際狀態空間小。

在上面的例子中，每次遇到障礙時，機器進入一個 Choice 狀態，在這個狀態中，機器要麼選擇"跟隨牆機器"(它只是在某個方向上不斷地跟隨牆) ，要麼選擇"後退機器"(後退並繼續執行)。因此，學習機的策略是以多大的概率來決定調用哪臺機器。

由於上述所有原因，HAM 框架通過限制可實現策略的類，爲我們提供了簡化 MDP 的能力。與期權框架類似，它也具有最優性的理論保證。主要的問題是 HAMs 的設計和實現非常複雜，並且沒有多少重要的應用程序可用。

5. MAXQ

MAXQ

MAXQ 是一種深度學習算法，通過將狀態-動作對的 Q 值分解爲 Q(p,s,a) = V(a, s) + C(p,s,a)得到任務的層次結構，其中 V(a,s) 是執行狀態爲 a 的動作時期望得到的總獎勵(經典Q-learning中的Q), C(p,s,a) 是父任務執行後期望得到的總獎勵。事實上，動作 a 可能不僅包含一個原始動作，而且還包含一系列動作。

本質上，MAXQ 框架可以理解爲將 MDP 的值函數分解爲較小的組成 MDPs 的值函數的組合，一個有限的子任務集合，其中每個子任務被形式化爲:

一個終止信號
一系列的動作
一個準獎勵

在這方面，MAXQ 框架與封建 Q-Learning 有關聯。

儘管如此，MAXQ 相對於其他框架的優勢在於它學習了一個遞歸最優策略，這意味着父任務的策略在子任務的學習策略下是最優的。也就是說，任務的策略是與上下文無關的: 每個子任務都是在不參考執行它的上下文的情況下優化解決的。雖然這並不意味着它將找到一個最佳的政策，但它打開了國家抽象和更好的轉移學習的大門，並可以提供許多其他任務的共同宏觀行動。

6. 展望

Outlook

Options 框架和 MAXQ 分解都爲算法設計人員提供了強大的工具來分層地解決問題。如果你對這方面的研究感興趣，讀者可以選擇自己認爲最有前途的方法，或者你認爲最能從改進中獲益的方法。然後，讀者可以開發新的假設來進行基準測試，使用開源代碼(比如 HIRO、 HAC、 MLSH、 HSP)來構建新的想法，或者通過從上面提到的許多貢獻中汲取靈感，自己實現一個系統。

總而言之，如果不能恰當地衡量這些發展，就無法量化這些發展，而且我有一種感覺，即仍然缺乏有效地衡量 HRL 以及更廣泛的 RL 所取得進展的工具。幸運的是，這個研究領域的社區也在積極地研究這些問題。當然，我們有責任認識到我們領域固有的問題，這些問題不是短期的困難，而是長期的進展緩慢。我們有責任參與解決這些問題，並以可重複的方式爲進展作出貢獻。

作者簡介：Yannis Flet-Berliac 是 Inria SequeL 團隊法國里爾北方的大學的博士生。他的研究項目主要涉及深海強化學習，主要關注隨機和非平穩的環境。在開始攻讀博士學位之前，他在法國和丹麥主要從事對話模型、機器翻譯和攝影師風格識別方面的工作。

HRL 層級增強學習

Hierarchical Reinforcement Learning

Feudal Learning

Options Framework

Hierarchical Abstract Machines

MAXQ

Outlook

deep cg2real 渲染真實感神經網絡

houdini一些資源文章

CVPR 2019 論文彙總

[轉]bert模型分析

領域驅動設計比較經典的書籍

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結