DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction


發表時間:2020 (NeurIPS 2020)
文章要點:這篇文章想說,對於監督學習來說就算剛開始訓的不準,後面的新數據也會給你正確的feedback,這樣的話隨着訓練進行,總會修正之前的錯誤。但是對於像Q-learning這樣的強化學習任務來說,不存在這樣的feedback,因爲更新是通過bootstrapping的方式更新的,而bootstrapping來自於自身不準確的網絡,這個方式會使得誤差累積,然後越來越差。作者提出了一個新的experience replay的算法DisCor,通過估計target value的準確性來reweight採樣,然後更新Q。
文章寫了很多用來近似估計value誤差的分析,最後加權的公式爲

其中

\(\tau\)是常數。整個流程如下

可以看到,這裏面還有一個error model用來迭代計算預測誤差。最終效果還是有一定提升的


總結:感覺寫了很多有的沒的理論,也不知道在寫啥。出發點是make sense的,就是不知道各種估計最後到底還有沒有用。
疑問:這個誤差這麼算真的準嗎,不太看得懂。感覺還要再看看纔行。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章