Teachable Reinforcement Learning via Advice Distillation

原創

2023-05-03 13:32

發表時間：2021 (NeurIPS 2021)
文章要點：這篇文章提出了一種學習policy的監督範式，大概思路就是先結構化advice，然後先學習解釋advice，再從advice中學policy。這個advice來自於外部的teacher，相當於一種human-in-the-loop decision making。另外這個advice不單單是reward的大小，可能具有更加實際的意義，比如告訴agent做什麼動作。
作者提出了一個Coaching Augmented Markov Decision Processes (CAMDPs)框架，在這個框架下，算法包括兩個步驟，advice grounding and advice distillation。grounding phase,就是去學會理解teacher-provided advice和high-value actions之間的聯繫，也就是學會理解advice。Distillation phase就是根據advice去學策略。
具體的，先去學一個surrogate policy

這裏c是advice，\(\tau\)是具體的任務，s是狀態。然後就用強化的方式，提供關於這個task的真實的reward來訓。這個過程和標準的multi-task RL一樣，只是多了一個advice作爲輸出入。有了這個之後，新任務來了就用這個surrogate policy根據新的advice來生成軌跡，然後用監督學習的方式學成一個不依賴於advice的policy

總結：感覺這個paper的點就在於如何學會理解advice，這樣來了新的任務之後，可以直接根據teacher給的advice來產生policy適應新的任務。但是感覺這個理解還是主要侷限在非常相似的任務上，不是很好泛化。
而且並不是真的zero-shot transfer，還是需要和環境再交互才能再用監督學一個policy，就感覺有點雞肋了。
疑問：裏面這個先學一個advice conditioned的policy，再在新任務上採樣，再監督成一個不依賴advice的policy，是不是有點多此一舉了啊。是不是還不如直接重新在新任務上訓練啊，就先搞個meta learning的pretrained model，然後直接對新任務finetune就好了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Teachable Reinforcement Learning via Advice Distillation

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

Reflexion: Language Agents with Verbal Reinforcement Learning

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結