Prioritized Sequence Experience Replay

原創

2023-06-23 13:32

發表時間：2020
文章要點：這篇文章提出了Prioritized Sequence Experience Replay (PSER)，一個新的經驗回放機制來提升訓練速度和效果。主要的出發點就是不僅要給重要的transition高的priority，對於到達這個重要的transition的之前的那些transitions,也要增加它們的priority（also increases the priorities of previous transitions leading to the important transitions）。
具體的，作者先和PER一樣，根據TD error算一個priority

這個\(p_n\)是\(s_n\)的priority，然後基於這個\(p_n\)來做衰減，給前面的狀態賦priority

或者

然後作者並不是衰減到一條軌跡的初始狀態，而是設置了一個window來衰減，window之外的不變。作者解釋是因爲指數衰減很快，太遠的地方其實值已經很小了，起不到什麼作用了，這樣做可以減少計算量。Window的指標就是小於1%就不算了。
此外，作者還發現一個稱爲priority collapse的問題，就是說假如PSER已經給一個狀態賦了一個很小的priority，那麼再對前面的值衰減，那前面的transition就更小了，那麼就和PER沒有區別了。作者就又加了一個參數來讓衰減慢一點

最後，PSER也用了PER的權重修正

然後就結束了。
總結：總的來說，就是給當前採到的transition之前的transition加一個衰減了的priority，然後又用trick控制了衰減速度。從效果上來看有一定提升的，不過好像就跑了一個種子，還有可能就是因爲trick太多，而且沒有解釋清楚爲啥這些因素work，所以沒中吧。
疑問：這個確實感覺就像是trick，效果不太好說。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Prioritized Sequence Experience Replay

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

Reflexion: Language Agents with Verbal Reinforcement Learning

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結