Experience Replay Optimization


發表時間:2019 (IJCAI 2019)
文章要點:這篇文章提出experience replay optimization (ERO)算法,通過learning a replay policy來採樣,相對於rule-based replay,可以自動調整採樣策略。所以整個過程會交互更新兩個policy,agent policy和replay policy,agent policy最大化累計回報,replay policy選擇最有用的experience。
具體的,replay policy會給每個狀態輸出一個0-1的得分作爲採樣的權重,然後更新的方式和PER一樣,每次採到的時候纔會再次更新。這個權重拿來用bernoulli分佈採0-1的值作爲label,然後從buffer裏均勻採樣的樣本需要滿足label爲1.

這相當於是兩階段的採樣,一個是均勻分佈採樣,另一個是用bernoulli來篩選樣本。
下一個問題是如何訓練replay policy,作者度量採樣更新前後的reward差作爲訓練的reward,

然後這個reward直接從最近的episodes裏面拿出來的,不用重新做evaluate。有了這個之後,就用REINFORCE訓練。
作者最後結合了DDPG算法,看起來有一點效果,但是也不明顯

作者最後分析,這個方法更傾向於採more recent transition,low TD error以及high reward(作者認爲是因爲訓到後面buffer裏的reward都比較高)。
總結:應該是第一個來學experience replay的,不過效果不是很明顯。
疑問:無。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章