Teachable Reinforcement Learning via Advice Distillation


發表時間:2021 (NeurIPS 2021)
文章要點:這篇文章提出了一種學習policy的監督範式,大概思路就是先結構化advice,然後先學習解釋advice,再從advice中學policy。這個advice來自於外部的teacher,相當於一種human-in-the-loop decision making。另外這個advice不單單是reward的大小,可能具有更加實際的意義,比如告訴agent做什麼動作。
作者提出了一個Coaching Augmented Markov Decision Processes (CAMDPs)框架,在這個框架下,算法包括兩個步驟,advice grounding and advice distillation。grounding phase,就是去學會理解teacher-provided advice和high-value actions之間的聯繫,也就是學會理解advice。Distillation phase就是根據advice去學策略。
具體的,先去學一個surrogate policy

這裏c是advice,\(\tau\)是具體的任務,s是狀態。然後就用強化的方式,提供關於這個task的真實的reward來訓。這個過程和標準的multi-task RL一樣,只是多了一個advice作爲輸出入。有了這個之後,新任務來了就用這個surrogate policy根據新的advice來生成軌跡,然後用監督學習的方式學成一個不依賴於advice的policy

總結:感覺這個paper的點就在於如何學會理解advice,這樣來了新的任務之後,可以直接根據teacher給的advice來產生policy適應新的任務。但是感覺這個理解還是主要侷限在非常相似的任務上,不是很好泛化。
而且並不是真的zero-shot transfer,還是需要和環境再交互才能再用監督學一個policy,就感覺有點雞肋了。
疑問:裏面這個先學一個advice conditioned的policy,再在新任務上採樣,再監督成一個不依賴advice的policy,是不是有點多此一舉了啊。是不是還不如直接重新在新任務上訓練啊,就先搞個meta learning的pretrained model,然後直接對新任務finetune就好了。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章