MODEL-AUGMENTED PRIORITIZED EXPERIENCE REPLAY


發表時間:2022(ICLR 2022)
文章要點:這篇文章想說Q網絡通常會存在under- or overestimate,基於TD error的experience replay通常都是無效的,因爲TD error是基於Q網絡的值計算的。作者提出了model-augmented prioritized experience replay (MaPER),用model based的輔助任務來幫助計算priority的score,這樣就可以避開Q網絡估計不準的問題。
具體的,作者修改了網絡結構,讓critic網絡同時預測reward和狀態轉移,modify the critic network by additionally predicting the reward and the transition with shared weights, which we call Model-augmented Critic Network (MaCN).然後提出MaPER,計算priority的時候同時考慮模型估計誤差和TD error。這個方式的好處是前期可能會更多考慮model error的樣本,後期會更多考慮TD error的樣本,同時learn model這個輔助任務也會幫助Q value的擬合

具體的,網絡的損失變成三項

這裏R是reward的預測,T是transition的預測,Q就是Q value,注意這裏target Q的計算

現在這個r不再是真實的環境reward,而是基於model預測的reward了

有了這個訓練之後,另一個問題就是priority的計算,作者直接三項求和

剩下的就是PER的方式計算採樣概率以及權重修正

整個算法如下

效果看起來也不錯


總結:出發點是非常有道理的,畢竟TD error確實可能就不準。整個計算代價增加的不多,效果看起來也不錯,值得借鑑一下。另外補充材料裏面把所有環境的圖都貼一遍介紹一下,又學到了。
疑問:這幾個error引入了三個權重參數,是看成一個multi-task的任務自適應調整的,也沒具體給出數值,感覺可以看看這篇引文,A simple general approach to balance task difficulty in multi-task learning。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章