台部落initial

發表時間：2022（ICLR 2022）文章要點：這篇文章想說Q網絡通常會存在under- or overestimate，基於TD error的experience replay通常都是無效的，因爲TD error是基於Q網絡的值計算

2023-07-03 13:32:31

發表時間：2019（ICML 2019）文章要點：這篇文章想說如果replay的經驗和當前的policy差別很大的話，對更新是有害的。然後提出了Remember and Forget Experience Replay (ReF-ER)算

2023-07-02 13:32:37

發表時間：2021（ICLR 2021）文章要點：這篇文章想說，之前的experience replay的priority比如PER，都是單個transition獨立設置的，並沒有考慮transition之間的關係。這篇文章提出了一個叫

2023-06-25 13:32:29

發表時間：2020 文章要點：這篇文章提出了Prioritized Sequence Experience Replay (PSER)，一個新的經驗回放機制來提升訓練速度和效果。主要的出發點就是不僅要給重要的transition高的pri

2023-06-23 13:32:17

發表時間：2020（ICML2020）文章要點：這篇文章研究了experience replay in Q-learning，主要考慮了兩個方面：replay capacity（buffer的大小，the total number of

2023-06-09 13:32:24

發表時間：2021 文章要點：這篇文章想說Prioritized experience replay這類方法通過surprise (the magnitude of the temporal-difference error)來採樣，但是

2023-06-04 13:32:31

發表時間：2021（ICML 2021）文章要點：這篇文章提出一個更新policy的方式，結合regularized policy optimization 以及model learning as an auxiliary loss。最

2023-06-03 13:32:56

發表時間：2022（ICLR 2022）文章要點：AlphaZero在搜索次數很少的時候甚至動作空間都不能完全被訪問到，這個時候AlphaZero的效果是不好的。文章提出了Gumbel AlphaZero算法，利用policy impr

2023-05-28 13:35:23

發表時間：2021(NeurIPS 2021) 文章要點：這篇文章提出一個tandem learning的實驗範式來研究爲什麼offline RL很難學。對於offline RL來說，一個很嚴重的問題就是extrapolation err

2023-05-25 13:32:29

發表時間：2019（ICML 2019）文章要點：這篇文章想說在offline RL的setting下，由於外推誤差（extrapolation errors）的原因，標準的off-policy算法比如DQN，DDPG之類的，如果數據的分

2023-05-21 13:40:45

發表時間：2017（Deep Reinforcement Learning Symposium, NIPS 2017）文章要點：這篇文章主要研究了replay buffer大小對Q-learning的影響，得出的結論是大的buffer會

2023-05-18 13:32:33

發表時間：2020 (NeurIPS 2020) 文章要點：這篇文章想說，對於監督學習來說就算剛開始訓的不準，後面的新數據也會給你正確的feedback，這樣的話隨着訓練進行，總會修正之前的錯誤。但是對於像Q-learning這樣的強化學

2023-05-14 13:32:31

發表時間：2020（ICLR2020）文章要點：這篇文章提出了一個無監督的model-based的學習算法Dynamics-Aware Discovery of Skills (DADS)，可以同時發現可預測的行爲以及學習他們的dyna

2023-05-10 13:32:25

發表時間：2021 (NeurIPS 2021) 文章要點：這篇文章提出了一個Heuristic-Guided Reinforcement Learning (HuRL)的框架，用domain knowledge或者offline dat

2023-05-07 13:32:48

發表時間：2021 (NeurIPS 2021) 文章要點：這篇文章提出了一種學習policy的監督範式，大概思路就是先結構化advice，然後先學習解釋advice，再從advice中學policy。這個advice來自於外部的teac

2023-05-03 13:32:19