Policy Distillation


發表時間:2016(ICLR 2016)
文章要點:這篇文章考慮的情形是從一個RL的policy網絡提取策略,遷移到另一個policy網絡。其實就是知識遷移(Distillation is a method to transfer knowledge from a teacher model T to a student model),只是這裏用到強化裏面了。目的是可以用來做模型壓縮,multiple task-specific的策略融合到一個policy裏,以及一定程度提升泛化性。
具體的做法就是,用teacher policy和環境交互,收集數據,然後用監督學習的方法訓練一個新的policy網絡。作者以DQN爲例提出了三種loss function。第一種直接學Q value最大值對應的動作,loss爲negative log likelihood loss (NLL)

第二種是用mean-squared-error loss (MSE)來學Q value

第三章是用Kullback-Leible divergence (KL)來學用Q value構成的概率分佈

得出的結論是MSE最差,KL最好

總結:一篇很老的文章了,算是policy distillation的開端吧,其實主要就是監督學習,修改的就是loss function。
疑問:裏面p4說policies are inherently lower variance than value functions,這是爲啥?因爲value是unbounded嗎?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章