Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience


發表時間:2021(IEEE Transactions on Neural Networks and Learning Systems)
文章要點:這篇文章提出一個新的experience replay的方法,improved SAC (ISAC)。大概思路是先將replay buffer裏面好的experience單獨拿出來作爲好的experience。然後再混合當前最新收集的樣本一起用來更新,就相當於好的off-policy data混合最新的on-policy data。
具體做法就是將experience的累積回報也存下來,作爲這個transition的得分,然後先隨機選多個mini batch,文中是兩個,再找這裏面得分最高的,最後再和當前最新的on policy的數據混合起來訓練網絡。另外,直接對着最好的樣本訓練可能會overfitting,因爲訓練到後期可能估計都差不多,得分也差不多,再找得分最高的狀態可能就都是相似的狀態了。作者的做法是比較兩個batch的相似度,如果得分太相似,那就還是隨機採樣,不取得分最高的樣本。作者通過餘弦相似度,以及設計閾值實現

最後看效果,感覺就是沒有任何效果。。。

總結:感覺沒啥效果。找文章還是得找頂會這邊的。
疑問:裏面這個相似度的度量感覺不是很靠譜啊,應該還要考慮樣本得分的排序吧,不然相似度也會不一樣。而且這個公式都寫錯了。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章