Policy Distillation


发表时间:2016(ICLR 2016)
文章要点:这篇文章考虑的情形是从一个RL的policy网络提取策略,迁移到另一个policy网络。其实就是知识迁移(Distillation is a method to transfer knowledge from a teacher model T to a student model),只是这里用到强化里面了。目的是可以用来做模型压缩,multiple task-specific的策略融合到一个policy里,以及一定程度提升泛化性。
具体的做法就是,用teacher policy和环境交互,收集数据,然后用监督学习的方法训练一个新的policy网络。作者以DQN为例提出了三种loss function。第一种直接学Q value最大值对应的动作,loss为negative log likelihood loss (NLL)

第二种是用mean-squared-error loss (MSE)来学Q value

第三章是用Kullback-Leible divergence (KL)来学用Q value构成的概率分布

得出的结论是MSE最差,KL最好

总结:一篇很老的文章了,算是policy distillation的开端吧,其实主要就是监督学习,修改的就是loss function。
疑问:里面p4说policies are inherently lower variance than value functions,这是为啥?因为value是unbounded吗?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章