COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES

原創

2023-03-06 13:32

發表時間：2020（ICLR 2020）
文章要點：這篇文章提出Search with Amortized Value Estimates(SAVE)算法，將Q-learning和MCTS結合起來。用Q value來指導MCTS，然後用得到的Q-estimates來更新Q value。在search budgets很小的情況下也能取得很好的效果。
首先planning可以一定程度上避免選擇次優動作，從而取得更好的效果。但是另一方面，這也導致buffer裏面關於次優動作的信息就很少，導致這些次優動作在更新Q function的時候就不會被downweighed，那麼Q value的估計也會不準。作者的思路就是用Q function來指導MCTS，然後更新的時候除了原始Q learning的更新，還把search裏面得到的Q value也拿來更新。
Q在MCTS裏面的用法就是放到UCT裏面作爲初始估計

這裏相當於

然後simulation之後會更新

然後就有一個在樹裏面的Q的估計

把這個東西也放到buffer裏用來更新Q。所以作者搞了一個amortization loss來使得Q的估計和MCTS估計的Q一樣

再和Q learning的loss合到一起

總結：感覺是挺合理的做法，效果肯定比model free強，但是一個問題是在測試的時候也必須MCTS，如果直接用Q來選動作的話，效果並不好，這中間有個GAP。要是能消除或者減小這個GAP，就是說Q已經真的學到了MCTS的Q了，不需要在測試的時候再用MCTS了，說服力應該更強。感覺這個點值得做一做，畢竟訓的時候我不管你咋做，測試的時候必須要快速決策，加上MCTS還是慢了。另外，這裏面如果對着MCTS做監督訓練，那Q learning就弱了，這個貝爾曼更新的原理就弱了，這其實在理論上有點不合邏輯。
疑問：其實我也開始有點懷疑DQN到底是不是在最小化貝爾曼誤差了。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

State Distribution-aware Sampling for Deep Q-learning

Large Batch Experience Replay

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結