HIERARCHICAL REINFORCEMENT LEARNING BY DISCOVERING INTRINSIC OPTIONS


發表時間:2021(ICLR 2021)
文章要點:這篇文章提出了一個分層強化學習算法HIDIO (HIerarchical RL by Discovering Intrinsic Options),用自監督的方式來學習任務無關的options,避免了人爲設計,同時利用這些options來解決稀疏回報任務。這些options基於intrinsic entropy的目標函數來進行學習,所以這些options具有多樣性,並且是任務無關的(These options are learned through an intrinsic entropy minimization objective conditioned on the option sub-trajectories. The learned options are diverse and task-agnostic)。Options就可以理解成一連串具體的動作(option is translated to a sequence of actions by an option-conditioned policy with a termination condition)。
具體的,上層policy(the scheduler \(\pi_\theta\))的目標是通過選擇options最大化環境的reward,下層policy(the worker \(\pi_\phi\))的目標是通過自監督的方式有效地發現options。然後每隔K個step,上層policy就輸出一個option,option是一個D維的latent representation \(u \in [-1,1]^D\)。如果每個episode的長度是T,那麼上層policy的軌跡長度就是

上層的優化目標就是最大化環境reward

這裏各個符號的含義定義如下

這裏定義的符號都是和上層軌跡相關的,右邊是下層的動作和狀態,左邊是上層的option,狀態和reward。作者把上層的option和狀態

叫做option sub-trajectories。
然後下層policy就以這個option sub-trajectories作爲輸入,執行具體的動作

下層的目標就是最小化option的entropy

注意,這裏的第一項就是最小化option \(u_h\)的entropy,作者的解釋是,爲了讓下層更加堅定這個option的含義(the first term suggests that the worker is optimized to confidently identify an option given a sub-trajectory.)。第二項是最大化下層policy的entropy,作者的解釋就是增加覆蓋度,有點像增加探索。
具體做的時候,後驗概率p是不知道的,所以搞一個網絡q來估計,最後式子變成

所以下層的reward就是

訓練的時候上下層一起訓練,用的SAC算法。
總結:想法是好的,自己去發現option,自己去把分層給做了。上層的訓練還比較好理解,下層的訓練不是很好理解。具體怎麼就work了不太明白。
疑問:層這個優化目標真的有用嗎,這樣就能發現option?
文章裏面K設成的3,這個分層的option長度是不是有點過於短了?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章