COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES


發表時間:2020(ICLR 2020)
文章要點:這篇文章提出Search with Amortized Value Estimates(SAVE)算法,將Q-learning和MCTS結合起來。用Q value來指導MCTS,然後用得到的Q-estimates來更新Q value。在search budgets很小的情況下也能取得很好的效果。
首先planning可以一定程度上避免選擇次優動作,從而取得更好的效果。但是另一方面,這也導致buffer裏面關於次優動作的信息就很少,導致這些次優動作在更新Q function的時候就不會被downweighed,那麼Q value的估計也會不準。作者的思路就是用Q function來指導MCTS,然後更新的時候除了原始Q learning的更新,還把search裏面得到的Q value也拿來更新。
Q在MCTS裏面的用法就是放到UCT裏面作爲初始估計

這裏相當於

然後simulation之後會更新

然後就有一個在樹裏面的Q的估計

把這個東西也放到buffer裏用來更新Q。所以作者搞了一個amortization loss來使得Q的估計和MCTS估計的Q一樣

再和Q learning的loss合到一起

總結:感覺是挺合理的做法,效果肯定比model free強,但是一個問題是在測試的時候也必須MCTS,如果直接用Q來選動作的話,效果並不好,這中間有個GAP。要是能消除或者減小這個GAP,就是說Q已經真的學到了MCTS的Q了,不需要在測試的時候再用MCTS了,說服力應該更強。感覺這個點值得做一做,畢竟訓的時候我不管你咋做,測試的時候必須要快速決策,加上MCTS還是慢了。另外,這裏面如果對着MCTS做監督訓練,那Q learning就弱了,這個貝爾曼更新的原理就弱了,這其實在理論上有點不合邏輯。
疑問:其實我也開始有點懷疑DQN到底是不是在最小化貝爾曼誤差了。。。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章