Selective Experience Replay for Lifelong Learning


發表時間:2018(AAAI 2018)
文章要點:這篇文章想解決強化學習在學多個任務時候的遺忘問題。作者提出了一種對通常的experience replay增廣的方式,就是在保持之前的buffer的同時,再維持一個buffer用來存少部分有代表性的experience作爲long-term memory。作者研究了四種挑選experience的方式:favoring surprise, favoring reward, matching the global training distribution, and maximizing coverage of the state space.結果表明distribution matching和coverage maximization可以避免catastrophic forgetting。
具體的,作者基於DQN,所以多任務的DQN其實就是採多個任務的experience一起訓練

然後這四種選樣本的方式都比較直觀,其中surprise就是TD error

Reward依據的是reward絕對值的大小。Global Distribution Matching就是從所有的樣本里面做down sample。Coverage Maximization搞了一個聚類的方式,每次用新的樣本替換掉距離最近的樣本。結果上看可以緩解catastrophic forgetting。
總結:無。
疑問:普通的強化會不會有遺忘的問題,比如學到後面忘了前面?(應該會吧,但是每次reset又會採到前面的樣本,估計就還好。)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章