State Distribution-aware Sampling for Deep Q-learning


發表時間:2018(Neural Processing Letters 2019)
文章要點:這篇文章認爲之前的experience replay的方法比如PER沒有將transition的分佈情況考慮在內,於是提出一個新的experience replay的方法,將occurrence frequencies of transitions和uncertainty of state-action values考慮在內。
作者的出發點是,agent通常從一些初始狀態開始,所以離這些狀態越近的狀態肯定被探索的越多,這就導致buffer裏的狀態是skew的,所以直接均勻採樣更像是occurrence frequencies-based sampling,對於出現少的狀態很少會更新對應的Q(s,a),這就會導致對經常出現的狀態更新過多,出現較少的狀態更新太少。所以作者用靜態哈希表將狀態聚類,然後根據類別和每類的樣本數定義採樣概率

這裏第一項就是完全的隨機採樣,第二項裏k指k個類別,\(num_i\)表示樣本i所屬類別一共有多少個樣本。所以第二項裏,如果某個類別裏的樣本很多,那抽到裏面某個樣本的可能性就小。下圖描述了採樣的區別,可以看到這種綜合加純隨機,同時也考慮了樣本分佈的概率採樣會更加均勻

不過最後效果看起來,沒有很大的提升

總結:道理上是make sense的,但是結果看起來也不是很明顯。
疑問:是不是其實sampling留給大家做的空間已經不大了啊,看了這麼多文章,感覺提升都很小。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章