Prioritized Sequence Experience Replay


發表時間:2020
文章要點:這篇文章提出了Prioritized Sequence Experience Replay (PSER),一個新的經驗回放機制來提升訓練速度和效果。主要的出發點就是不僅要給重要的transition高的priority,對於到達這個重要的transition的之前的那些transitions,也要增加它們的priority(also increases the priorities of previous transitions leading to the important transitions)。
具體的,作者先和PER一樣,根據TD error算一個priority

這個\(p_n\)\(s_n\)的priority,然後基於這個\(p_n\)來做衰減,給前面的狀態賦priority

或者

然後作者並不是衰減到一條軌跡的初始狀態,而是設置了一個window來衰減,window之外的不變。作者解釋是因爲指數衰減很快,太遠的地方其實值已經很小了,起不到什麼作用了,這樣做可以減少計算量。Window的指標就是小於1%就不算了。
此外,作者還發現一個稱爲priority collapse的問題,就是說假如PSER已經給一個狀態賦了一個很小的priority,那麼再對前面的值衰減,那前面的transition就更小了,那麼就和PER沒有區別了。作者就又加了一個參數來讓衰減慢一點

最後,PSER也用了PER的權重修正

然後就結束了。
總結:總的來說,就是給當前採到的transition之前的transition加一個衰減了的priority,然後又用trick控制了衰減速度。從效果上來看有一定提升的,不過好像就跑了一個種子,還有可能就是因爲trick太多,而且沒有解釋清楚爲啥這些因素work,所以沒中吧。
疑問:這個確實感覺就像是trick,效果不太好說。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章