HIERARCHICAL REINFORCEMENT LEARNING BY DISCOVERING INTRINSIC OPTIONS

原創

2022-12-07 13:32

發表時間：2021（ICLR 2021）
文章要點：這篇文章提出了一個分層強化學習算法HIDIO (HIerarchical RL by Discovering Intrinsic Options)，用自監督的方式來學習任務無關的options，避免了人爲設計，同時利用這些options來解決稀疏回報任務。這些options基於intrinsic entropy的目標函數來進行學習，所以這些options具有多樣性，並且是任務無關的（These options are learned through an intrinsic entropy minimization objective conditioned on the option sub-trajectories. The learned options are diverse and task-agnostic）。Options就可以理解成一連串具體的動作（option is translated to a sequence of actions by an option-conditioned policy with a termination condition）。
具體的，上層policy（the scheduler \(\pi_\theta\)）的目標是通過選擇options最大化環境的reward，下層policy（the worker \(\pi_\phi\)）的目標是通過自監督的方式有效地發現options。然後每隔K個step，上層policy就輸出一個option，option是一個D維的latent representation \(u \in [-1,1]^D\)。如果每個episode的長度是T，那麼上層policy的軌跡長度就是

上層的優化目標就是最大化環境reward

這裏各個符號的含義定義如下

這裏定義的符號都是和上層軌跡相關的，右邊是下層的動作和狀態，左邊是上層的option，狀態和reward。作者把上層的option和狀態

叫做option sub-trajectories。
然後下層policy就以這個option sub-trajectories作爲輸入，執行具體的動作

下層的目標就是最小化option的entropy

注意，這裏的第一項就是最小化option \(u_h\)的entropy，作者的解釋是，爲了讓下層更加堅定這個option的含義（the first term suggests that the worker is optimized to confidently identify an option given a sub-trajectory.）。第二項是最大化下層policy的entropy，作者的解釋就是增加覆蓋度，有點像增加探索。
具體做的時候，後驗概率p是不知道的，所以搞一個網絡q來估計，最後式子變成

所以下層的reward就是

訓練的時候上下層一起訓練，用的SAC算法。
總結：想法是好的，自己去發現option，自己去把分層給做了。上層的訓練還比較好理解，下層的訓練不是很好理解。具體怎麼就work了不太明白。
疑問：層這個優化目標真的有用嗎，這樣就能發現option？
文章裏面K設成的3，這個分層的option長度是不是有點過於短了？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HIERARCHICAL REINFORCEMENT LEARNING BY DISCOVERING INTRINSIC OPTIONS

【筆記】動手學深度學習-前言

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

支持非IE瀏覽器真的那麼難嗎？

爲啥就那麼痛恨IE？

Brian Sun：回覆“爲啥就那麼痛恨IE？”

體驗下，大廠在使用功能的API網關！

見鬼了！我家的 WiFi 只有下雨天才能正常使用...

短視頻文案提取原來如此簡單

oa系統集成及案例樣式

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

State Distribution-aware Sampling for Deep Q-learning

Large Batch Experience Replay

Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結