Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience


发表时间:2021(IEEE Transactions on Neural Networks and Learning Systems)
文章要点:这篇文章提出一个新的experience replay的方法,improved SAC (ISAC)。大概思路是先将replay buffer里面好的experience单独拿出来作为好的experience。然后再混合当前最新收集的样本一起用来更新,就相当于好的off-policy data混合最新的on-policy data。
具体做法就是将experience的累积回报也存下来,作为这个transition的得分,然后先随机选多个mini batch,文中是两个,再找这里面得分最高的,最后再和当前最新的on policy的数据混合起来训练网络。另外,直接对着最好的样本训练可能会overfitting,因为训练到后期可能估计都差不多,得分也差不多,再找得分最高的状态可能就都是相似的状态了。作者的做法是比较两个batch的相似度,如果得分太相似,那就还是随机采样,不取得分最高的样本。作者通过余弦相似度,以及设计阈值实现

最后看效果,感觉就是没有任何效果。。。

总结:感觉没啥效果。找文章还是得找顶会这边的。
疑问:里面这个相似度的度量感觉不是很靠谱啊,应该还要考虑样本得分的排序吧,不然相似度也会不一样。而且这个公式都写错了。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章